线性 模型 引 论 


王 松 桂 ” 史 建 红 ” 必 素 菊 吴 密 霞 编著 


20 年 教学 与 科研 的 结晶 ， 能 把 握 概 念 的 实质 
论述 严谨 ， 内 容 自封 闭 性 强 

涉及 领域 广泛 ， 便 于 把 握 概 念 的 内 涵 

书 中 精 选 了 理论 与 应 用 型 的 大 量 习题 


N 7-03-012 


山中 


87030 12772 


大 学 数学 科学 丛书 3 


线性 模型 引 论 
王 松 桂 ” 史 建 红 
尹 素 葡 吴 密 霞 


全 学 和 作 且 让 


内 容 简 介 


本 书 系统 阔 述 线性 模型 的 基本 理论 、 方 法 及 其 应 用 ， 其 中 包括 理论 与 
应 用 的 近期 发 展 . 全 书 共 分 九 章 . 第 一 章 通过 实例 引进 各 种 线性 模型 . 第 二 
章 讨论 矩阵 论 方面 的 补充 知识 . 第 三 章 讨论 多 元 正 态 及 有 关 分 布 从 第 四 
章 起 ， 系 统 讨论 线性 模型 统计 推断 的 基本 理论 与 方法 , 包括 : 最 小 二 乘 估 
计 、 假 设 检验 、 置 信 区 域 、 预 测 、 线 性 回归 模型 、 方 差分 析 模 型 、 协 方差 
分 析 模型 和 线性 混合 效应 模型 . 

本 书 可 作为 高 等 院 校 数学 科学 系 、 数 理 统计 或 统计 系 、 生物 统计 系 , 计 
量 经 济 系 等 有 关 学 科 的 高 年 级 本 科 生 、 硕 士 生 或 博士 生 的 学 位 课 或 选修 课 
教材 ,以 及 数学 、 生 物 、 医 学 、 工 程 、 经 济 、 金 融 等 领域 的 教师 或 科技 工 
作者 的 参考 书 . 


图 书 在 版 编目 《CIP) 数据 

线性 模型 引 论 / 王 松 桂 等 编著 ， 一 北京 : 科学 出 版 社 ，2004 
(大 学 数学 科学 丛书; 3) 

ISBN 7-03-012772-2 

] . 线 … 本 . 王 … II. 线性 模型 -教材 IV.0212 

中 国 版 本 图 书馆 CIP 数据 核 字 (2004) 第 005441 号 


责任 编辑 : 吕 虹 / 责 任 校对 : 钟 洋 
责任 印 制 : 钱 玉 芬 /封面 设计 : 王 浩 


甸 学 灾 座 让 出 版 
北京 东 黄 城 根 北 竺 16 号 
部 政 编码 :100717 
http:// www. sciencep.com 
新 车 多 制 厂 印刷 
科学 出 版 社 发 行 各 地 新 华 书店 经 销 


2004 年 5 月 第 一 版 开本 : B5(720x 1000) 

2004 年 5 月 第 一 次 印 剧 印张: 19 1/4 

印 数 : 1 一 3 500 字数 : 350 000 
定价 : 35.00 元 


(如 有 印 装 质量 问题 ,我 社 负责 调换 ( 环 伟 ) ) 


《大 学 数学 科学 丛书 》 编 委 会 
(以 姓氏 笔画 为 序 ) 


顾 问 : 王 元 谷 超 豪 姜 伯 驹 

主 编 ， 李 大 潜 

副 主编 : 龙 以 明 ” 冯 克 勤 ” 张 继 平 袁 亚 湘 

编 委 : 王 维 克 尹 景 学 叶 向 东 ” 叶 其 考 
李 安 民 ” 李 克 正 ” 吴 宗 敏 ” 吴 喜 之 
张 平 文 范 更 华 郑 学 安 姜 礼 沿 
徐 宗 本 彭 实 戈 


第 一 作者 简介 


王 松 桂 ， 北 京 工业 大 学 教授 、 博 士 生 导师 .1965 
年 毕业 于 中 国 科技 大 学 并 留 校 执教 ， 曾 任 数 学 系 副 主 
任 . 1993 年 调 入 北京 工业 大 学 ， 曾 任 应 用 数学 系 主任 
和 应 用 数理 学 院 院 长 . 长 期 从 事 线性 模型 和 多 元 统计 
分 析 等 方面 的 科学 研究 . 

曾 先后 应 邀 赴 美 国 、 加 拿 大 、 日 本 、 瑞 典 、 瑞 士 、 
芬兰 、 波 兰 等 国家 和 中 国 香港 地 区 的 20 余 所 大 学 讲学 和 合作 研究 . 曾 
获得 第 三 世界 科学 院 研究 基金 、 瑞 士 国 家 基金 和 芬兰 科学 院 研究 基 
金 . 曾 任 中 国 数 学 会 理事 、 中 国 概率 统计 会 常务 理事 , 现任 中 国 工业 
与 应 用 数学 会 常务 理事 、 美 国 统计 刊物 “Journal of Statistical 
Planning and Inferences" 副 主编 以 及 美国 "Mathematics Review" 特 
约 评论 员 . 曾 获 中 国 科学 院 重大 科技 成 果 二 等 奖 和 两 项 北京 市 科技 进 
步 二 等 奖 , 所 著 教 材 《概率 论 与 数理 统计 》 获 教育 部 优秀 教材 二 等 奖 . 

在 《中 国 科学 》、《 科 学 通报 》、《 数 学 学 报 》、《 数 学 进展 》、 美国 
“Linear Algebra and Its Applications”、 “Annals of Statistics”、 
“Journal of Multivariate Analysis” 等 国内 外 刊物 发 表 论 文 100 余 
篇 .出 版 的 学 术 专 著 有 “Advanced Linear Models”( 英文 版 ， 美国 
Marcel Dekker 公司 出 版 ，1994)、《 线 性 模型 的 理论 及 其 应 用 了》《 近 
代 回归 分 析 》、《 实 用 多 元 统计 分 析 》、《 和 矩阵 论 中 的 不 等 式 》、《 广 义 
逆 和 矩阵 及 其 应 用 》《 线 性 统计 模型 》 《概率 论 与 数理 统计 》 等 9 部 . 


《大 学 数学 科学 丛书 》 序 


按照 恩格斯 的 说 法 ,数学 是 研究 现实 世界 中 数量 关系 和 空间 形式 的 科学 .从 
恩格斯 那 时 到 现在 ,尽管 数学 的 内 涵 已 经 大 大 拓展 了 ， 人 们 对 现实 世界 中 的 数 
量 关系 和 空间 形式 的 认识 和 理解 已 今 非 萌 比 , 数学 科学 已 构成 包括 纯粹 数学 及 
应 用 数学 内 含 的 众多 分 支 学 科 和 许多 新 兴 交 叉 学 科 的 庞大 的 科学 体系 , 但 恩 格 
斯 的 这 一 说 法 仍然 是 对 数学 的 一 个 中 肯 而 又 相对 来 说 易于 为 公众 了 解 和 接受 的 
概括 ， 科 学 地 反映 了 数学 这 一 学 科 的 内 涵 . 正 由 于 忽略 了 物质 的 具体 型 态 和 属 
性 、 纯 粹 从 数量 关系 和 空间 形式 的 角度 来 研究 现实 世界 . 数学 表现 出 高 度 抽象 
性 和 应 用 广泛 性 的 特点 ， 具 有 特殊 的 公共 基础 地 位 ， 其 重要 性 得 到 普遍 的 认同 

整个 数学 的 发 展 史 是 和 人 类 物质 文明 和 精神 文明 的 发 展 史 交融 在 一 起 的 
作为 一 种 先进 的 文化 , 数学 不 仅 在 人 类 文明 的 进程 中 一 直 起 着 积极 的 推动 作用 
而 且 是 人 类 文明 的 一 个 重要 的 支柱 . 数学 教育 对 于 启迪 心智 、 增 进 素 质 、 提 高 
全 人 类 文明 程度 的 必要 性 和 重要 性 已 得 到 空前 普遍 的 重视 . 数学 教育 本 质 是 一 
种 素质 教育 ; 学 习 数 学 , 不 仅 要 学 到 许多 重要 的 数学 概念 、 方法 和 结论 ,更 要 着 
重 领 会 到 数学 的 精神 实质 和 思想 方法 . 在 大 学 学 习 高 等 数学 的 阶段 ,更 应 该 自 
觉 地 去 意识 并 努力 体现 这 一 点 . 

作为 面向 大 学 本 科 生 和 研究 生 以 及 有 关 教 师 的 教材 ,教学 参考 书 或 课外 读 
物 的 系列 ， 本 丛书 将 努力 贯彻 加 强 基础 、 面 向 前 沿 、 突 出 思想 、 关 注 应 用 和 方 
便 阅 读 的 原则 ,力求 为 各 专业 的 大 学 本 科 生 或 研究 生 ( 包 括 硕士 生 及 博士 生 ) 
走 近 数 学 科学 、 理 解数 学 科学 以 及 应 用 数学 科学 提供 必要 的 指引 和 有 力 的 帮助 
并 欢迎 其 中 相当 一 些 能 被 广大 学 校 选用 为 教材 ,相信 并 希望 在 各 方面 的 支持 及 
帮助 下 , 本 丛书 将 会 愈 出 愈 好 


李 大 潜 
2003 年 12 月 27 日 
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线性 模型 是 现代 统计 学 中 理论 丰富 、 应 用 广泛 的 一 个 重要 分 支 , 随 着 高 速 
电子 计算 机 的 日 益 普及 , 在 生物 、 医 学 、 经 济 、 管 理 、 农 业 、 工 业 、 工 程 技术 
等 领域 的 应 用 获得 长 足 发 展 . 因此 , 在 国内 外 很 多 高 等 院 校 已 将 线性 模型 列 入 
数学 科学 系 、 数 理 统计 系 或 统计 系 、 生 物 统计 系 、 计 量 经 济 系 等 高 年 级 本 科 生 、 
硕士 生 或 博士 生 的 学 位 课 或 选修 课 . 本 书 是 为 适应 上 述 需 要 而 编写 的 教材 或 教 
学 参考 书 . 

全 书 共 分 九 章 . 第 一 章 通过 实例 引进 各 种 线性 模型 ， 使 读者 对 模型 的 丰富 
实际 背景 有 一 些 了 解 ,这 将 有 助 于 对 后 面 引进 的 统计 概念 和 方法 的 理解 . 第 二 
章 讨论 矩阵 论 方面 的 补充 知识 . 第 三 章 讨论 多 元 正 态 及 有 关 分 布 , 从 第 四 章 起 ， 
系统 讨论 线性 模型 统计 推断 的 基本 理论 与 方法 . 本 书 的 第 一 作者 先后 在 中 国 科 
学 技术 大 学 、 北 京 工业 大 学 、 复 旦 大 学 、 安 徽 大 学 、 云 南大 学 等 国内 院 校 以 及 

兰 的 坦 佩 雷 大 学 和 美国 的 科罗拉多 州立 大 学 讲授 过 本 书 的 部 分 内 容 . 

借 本 书 出 版 之 际 ,我们 要 向 我 们 的 老师 陈 希 到 院 士 表 示 衷 心 的 感谢 ， 感 谢 
他 对 我 们 多 年 来 的 研究 给 予 的 热情 鼓励 和 指导 . 

本 书 的 出 版 得 到 科学 出 版 社 和 吕 虹 先生 的 支持 和 关心 攀 亚 莉 小 姐 为 本 书 
部 分 章节 打字 ， 另 外 ,本 书 的 写作 得 到 国家 自然 科学 基金 和 北京 市 自然 科学 基 
金 资助 ,编者 愿 借 此 机 会 向 他 们 表示 诚挚 的 谢意 . 

本 书 由 王 松 桂 等 编著 . 第 一 至 四 章 由 王 松 桂 执笔 , 第 五 、 六 章 由 史 建 红 执 
笔 , 第 七 、 八 章 由 尹 素 菊 执 笔 ， 第 九 章 由 吴 密 霞 执 笔 ， 最 后 由 王 松 桂 统一 修改 定 
稿 . 由 于 编者 水 平 所 限 ， 书 中 错误 或 不 当 之 处 在 所 难免 , 恳请 国内 同行 及 广大 
读者 不 音 赐教. 
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第 一 章 模型 概论 


线性 模型 是 一 类 统计 模型 的 总 称 ， 它 包括 了 线性 回归 模型 、 方 差分 析 模 型 、 协 
方差 分 析 模型 和 线性 混合 效应 模型 (或 称 方差 分 量 模型 ) 等 .许多 生物 、 医 学 、 经 
济 、 管 理 、 地 质 、 气 象 、 农 业 、 工 业 、 工 程 技术 等 领域 的 现象 都 可 以 用 线性 模型 来 
近似 描述 . 因此 线性 模型 成 为 现代 统计 学 中 应 用 最 为 广泛 的 模型 之 一 . 本 书 将 系统 
讨论 线性 模型 统计 推断 的 基本 理论 与 方法 . 

本 章 将 通过 实例 引进 各 种 线性 模型 ， 使 读者 对 模型 的 丰富 实际 背景 有 一 些 了 
解 ， 这 将 有 助 于 对 后 面 引进 的 统计 概念 和 方法 的 理解 .我 们 先 从 线性 回归 模型 谈 
起 . 


$1.1 线性 回归 模型 


在 现实 世界 中 ， 存 在 着 大 量 的 这 样 的 情况 ， 两 个 变量 例如 X 和 Y 有 一 些 依赖 
关系 , 由 X 可 以 部 分 地 决定 Y 的 值 ， 但 这 种 决定 往往 不 很 确切 ,常常 用 来 说 明 这 
种 依赖 关系 的 最 简单 、 直 观 的 例子 是 体重 与 身高 ， 若 用 X 表示 某 人 的 身高 ， 用 工 
表示 他 的 体重 .众所周知 ， 一 般 来 说 ， 当 X 大 时 ，Y 也 倾向 于 大 ， 但 由 X 不 能 严 
格 地 决定 Y. 又 如 ， 城 市 生活 用 电量 Y 与 气温 X 有 很 大 的 关系 ， 在 夏天 气温 很 高 
或 冬天 气温 很 低 时 ， 由 于 空调 、 冰 箱 等 家 用 电器 的 使 用 ， 用 电量 就 高 ， 相 反 ， 在 春 
秋季 节气 温 不 高 也 不 低 ， 用 电量 就 相对 少 ， 但 我 们 不 能 由 气温 X 准确 地 决定 用 电 
量 Y. 类 似 的 例子 还 很 多 .变量 之 间 的 这 种 关系 称 为 “相关 关系 "， 回 归 模型 就 是 
研究 相关 关系 的 一 个 有 力 工具 . 

在 以 上 诸 例 中 ，Y 通常 称 为 因 变 量 或 响应 变量 , X 称 为 自 变量 或 预报 变量 . 我 
们 可 以 设想 ,Y 的 值 由 两 部 分 组 成 : 一 部 分 是 由 X 能 够 决定 的 部 分 ， 它 是 处 的 函 
数 ， 记 为 f(X). 在 许多 情况 下 , 这 个 函数 关系 或 者 是 线性 的 或 者 是 近似 线性 的 ， 即 


f(X)= Bo+ BiX, Ej 


这 里 fo 和 所 是 未 知 参数 . 而 另 一 部 分 则 由 其 它 众多 未 加 考虑 的 因素 (包括 随机 因 
素 ) 所 产生 的 影响 ， 它 被 看 作 随 机 误差 ， 记 为 e. 这 里 。 作 为 随机 误差 ,我 们 有 理由 
要 求 它 的 均值 E(e) = 0, 其 中 E(-) 表示 随机 变量 的 均值 ， 于 是 ， 我 们 得 到 


Y=PB+PBX+e. (1.1.2) 


在 这 个 模型 中 ， 若 忽略 掉 。, 它 就 是 一 个 通常 的 直线 方程 因此， 我 们 称 (1.1.2) 为 
线性 回归 模型 或 线性 回归 方程 . 关于 “回归 ”一 词 的 由 来 我们 留 在 后 面 作 解释 . 
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常数 项 Bo 是 直线 的 截 距 ，5: 是 直线 的 斜率 ,也 称 为 回归 系数 . 在 实际 应 用 中 ，Po 
和 此 是 未 知 的 ， 需 要 通过 观测 数据 来 估计 . 

假设 自 变量 X 分 别 取 值 为 z1,z2, …，zn 时 ， 因 变量 Y 对 应 的 观测 值 分 别 为 
加! ya，…， gyn. 于 是 我 们 有 n 组 观测 值 (zi;y;), i = 1,…,n. 如 果 Y 与 六 有 回归 
关系 (1.1.2), 则 这 些 (ze yi) 应 该 满足 


= P+ Prit ei, i=1,,n, (1.1.3) 


这 里 ei 为 对 应 的 随机 误差 . 基于 (1.1.3), 应 用 适当 的 统计 方法 (这 将 在 第 四 章 讨论 ) 
可 以 得 到 po 和 PB 的 估计 值 所 , 岳 ,将 它们 代入 (1.1.2), 再 略 去 误差 项 ei 得 到 


Y=P+BX, (1.1.4) 


称 之 为 经 验 回归 直线 ， 也 称 为 经 验 回 归 方 程 . 这 里 “经 验 " 两 字 表 示 这 个 回归 直线 
是 基于 前 面 的 ”次 观测 数据 (zi,y:), i = 1,…,n 而 获得 的 . 

例 1.1.1 ”肥胖 是 现代 社会 人 们 普遍 关注 的 一 个 重要 问题 , 那么 体重 多 少 才 算 
是 肥胖 呢 ? 这 当然 跟 每 个 人 的 身高 有 关 ， 于 是 许多 学 者 应 用 直线 回归 方法 研究 人 
的 体重 与 身高 的 关系 ,假设 X 表示 身高 (cm), Y 表示 体重 (kg). 我 们 假设 Y 与 X 
之 间 具有 回归 关系 (1.1.2). 在 这 里 误差 。 表示 除了 身高 X 之 外 ， 所 有 影响 体重 六 
的 其 它 因素 ， 例 如 遗传 因素 、 饮 食 习惯 、 体 育 锻炼 多 少 等 . 为 了 估计 其 中 的 参数 Bo 
和 所 ,研究 者 测量 了 很 多 人 的 身高 r 和 体重 yi, i = 1,…,n 得 到 关系 (1.1.3). 从 
而 应 用 统计 方法 可 以 估计 出 Bo 和 Pi1. 一 种 研究 结果 是 ， 若 用 XX - 150 作 自 变量 ， 
则 得 到 讽 = 50, 语 = 0.6, 也 就 是 说 我 们 有 经 验 回 归 直线 


Y=50+(X—150) x 0.6. 
我 们 可 以 把 它 改写 成 如 下 形式 ， 
Y = -40+0.6X, (1.1.5) 


这 个 经 验 回归 方程 在 一 定 程度 上 描述 了 体重 与 身高 的 相关 关系 . 给 定 X 的 一 个 具 
体 值 zo, 我 们 可 以 算出 对 应 的 Y 值 w = -40+ 0.6zo. 例如 某 甲 身高 zo = 160(cm)， 
代入 (1.1.5) 可 以 算出 对 应 yo = 56(kg). 我 们 称 56kg 为 身高 是 160cm 的 人 的 体重 
的 预测 . 这 就 是 说 ,对 于 一 个 身高 160cm 的 人 ,我们 预测 它 的 体重 大 致 为 56kg, 但 
实际 上 ， 它 的 体重 不 可 能 恰 为 56kg. 可 能 比 56kg 多 ， 也 可 能 比 56kg 少 . 

例 1.1.2 我们 知道 ， 一 个 公司 的 商品 销售 量 与 其 广告 费 有 密切 关系 ， 一 般 
说 来 在 其 它 因素 (如 产品 质量 等 ) 保持 不 变 的 情况 下 ， 用 在 广告 上 的 费用 愈 高 ， 它 
的 商品 销售 量 也 就 会 愈 多 .但 这 也 只 是 一 种 相关 关系 . 某 公 司 为 了 进一步 研究 这 
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种 关系 ， 用 X 表示 在 某 地 区 的 年 度 广告 费 , Y 表示 年 度 商品 销售 量 . 根据 过 去 一 
段 时 间 的 销售 记录 (zi,yi), i = 1,…,n, 采用 线性 回归 模型 (1.1.3) ,假定 计算 出 
fo = 1608.5, 房 = 20.1, 于 是 得 到 经 验 回归 直线 


Y = 1608.5 + 20.1X. 


这 个 经 验 回归 直线 告诉 我 们 ， 广 告 费 X 每 增加 一 个 单位 ， 该 公司 销售 收入 就 增加 
20.1 个 单位 . 如果 某 地 区 人 口 增 加 很 快 , 那么 很 可 能 人 口 总 数 也 是 影响 销售 量 的 一 
个 重要 因素 ， 若 记 Xi 为 年 度 广告 费 ，X2 为 某 地 区 人 口 总 数 ， 我 们 可 以 考虑 如 下 
含 两 个 自 变量 的 线性 回归 模型 ， 


Y=P+AX1+PaX2+e. 


同样 ， 根 据 记录 的 历史 数据 ， 应 用 适当 统计 方法 可 以 估计 出 B;, i = 0,1,2. 假定 估 
计 出 的 
记 =320.3， 厉 =18.4， 应 =0.2， 
则 我 们 得 到 经 验 回 归 方程 
Y = 320.3 + 18.4X1 十 0.2X2. 


从 这 个 经 验 回归 方程 我 们 可 以 看 出 ， 当 广告 费 Xi 增加 或 人 口 总 数 Xz 增加 时 ， 商 
品 销售 量 都 增加 ， 且 当 人 口 总 数 保持 不 变 时 ， 广 告 费 每 增加 1 个 单位 ,销售 基 增 加 
18.4 个 单位 . 而 当 广 告 费 保持 不 变 , 该 地 区 人 口 总 数 每 增加 一 个 单位 ,该 公司 销售 
量 增 达 0.2 个 单位 ， 当 然 ， 在 实际 应 用 中 ， 并 不 是 每 个 经 验 回 归 方程 都 能 描述 变量 
之 间 的 客观 存在 的 真正 的 关系 ， 关 于 这 一 点 ， 将 在 第 五 章 详细 讨论 ， 

在 实际 问题 中 ,影响 因 变 量 的 主要 因素 往往 很 多 ,这 就 需要 考虑 含 多 个 自 变 量 
的 回归 问题 假设 因 变 量 Y 和 p 一 1 个 自 变 量 Xi, .…, Xp_; 之 间 有 如 下 关系 ， 


Y=P+BXit+.…+h_iXp_1+e, (1.1.6) 


这 是 多 元 线性 回归 模型 ， 其 中 6o 为 常数 项 , B1，.…，B,_1 为 回归 系数 ,e 为 随机 误 
差 . 
假设 我 们 对 了 ,Xi，,… ,Xp_1 进行 了 n 次 观测 ， 得 到 n 组 观测 什 


Tals, Tip—l) Yi t=1,.°,%, 
它们 满足 关系 式 


路 = 加 +ziaB t+ + zap-1Bp-1 + ei i=1,.…,n, (1.1.7) 
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这 里 ei 为 对 应 的 随机 误差 .引进 矩阵 记号 


nn 1 sh S: Wp 
Ea 1 rz21 7 z2p-1 
y= 1 = 

Yn 1 Zn Trp-l 
bo © 
A ez 

B= ，e= ， 
Bp-1 en 


(1.1.7) 就 写 为 如 下 简洁 形式 ， 

y= XP+e, (1.1.8) 
这 里 y 为 nx1 的 观测 向 最 ， 为 n xp 已 知 矩 阵 ， 通常 称 为 设计 和 矩 阵 ， 对 于 线性 
回归 人 异型， 术语“ 设计 和 矩阵 ”中 的 “设计 ”两 字 并 不 蕴含 任何 真正 设计 的 含义 ， 只 
是 习惯 用 法 而 已 。 几 年 来 ， 有 一 些 学 者 建议 改 用 “模型 矩阵 "， 但 就 目前 来 讲 ， 沿 
用 “设计 矩阵 ”者 居多 . 6 为 未 知 参数 向 量 ， 其 中 Bo 称 为 常数 项 ， 而 B1,… ,6 
为 回归 系数 . 而 e 为 nx 1 随机 误差 向 量 ， 其 均值 为 零 ， 即 (ei;) = 0. 关于 e 最 党 
用 的 假设 是 : 

(a) 误差 项 具有 等 方差 ， 即 


Var(ei) = o2， i=l,,n, 


(b) 误差 是 彼此 不 相关 的 ， 即 
Covlesei)=0, i#j = 


通常 称 以 上 两 条 为 Gauss-Markov 假设 .我 们 知道 ， 一 个 随机 变量 的 方差 刻画 了 该 
随机 变量 取 值 散布 程度 的 大 小 ， 因 此 假设 (a) 要 求 e; 等 方差 ， 也 就 是 要 求 不 同 次 
的 观测 w 在 其 均值 附近 波动 程度 是 一 样 的 .这 个 要 求 有 时 显得 严厉 些 ， 在 一 些 情 
况 下 ,我 们 不 得 不 放松 为 Var(ei)=o3, i = 1,…,n. 假设 (b) 等 价 于 要 求 不 同 次 的 观 
测 是 不 相关 的 .在 实际 应 用 中 这 个 假设 比较 容易 满足 . 

模型 (1.1.8) 和 Gauss-Markov 假设 合 在 一 起 ， 可 简洁 地 表示 为 


y=XB+e, Ee)=0, Cov(e)=o21, (1.1.9) 
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这 里 Cov(e) 表示 随机 向 量 e 的 协 方差 阵 ，(1.1.9) 就 是 我 们 以 后 要 讨论 的 最 基本 的 
线性 回归 模型 . 

在 一 些 实际 问题 中 ， Var(ei) = o?, i = 1,…,n. 这 里 o 可 能 不 全 相等 .这 时 
观测 向 量 或 误差 向 量 的 协 方差 阵 形 为 


of 0 0 
0 oo:.. 0 

Cov(e) = 了 (1.1.10) 
0 0 屿 


在 经 济 问题 中 ， yi,y2，… ,yn 表示 某 经 济 指标 在 n 个 不 同时 刻 的 观测 值 ， 它 
们 往往 是 相关 的 . 这 种 相关 性 反应 在 误差 项 上 ,就 是 误差 项 的 自 相关 性 . 一 种 最 简 
单 的 自 相关 关系 是 误差 为 一 阶 自 回归 形式 ， 即 


ei=peiites, |vl<1, 


其 中 ei, i = 1,…,n 是 独立 同 分 布 的 随机 变量 , E(e;) = 0, Var(ei) = o2. 这 时 


1 pp pn-l 
o2 » i 
Cov(e) = nn ey (bl 
en-1 pr-2 .1 


上 面 我 们 讨论 的 都 是 线性 回归 模型 有 一 些 模型 虽然 是 非 线性 的 , 但 经 过 适当 
变换 ， 可 以 化 为 线性 模型 . 
例 1.1.3 ”在 经 济 学 中 ， 著 名 的 Cobb-Douglas 生产 函数 为 


Q: = aLtK?, 


这 里 Qs, Lt 和 Ki 分 别 为 + 年 的 产值 、 劳力 投入 量 和 资金 投入 量 ,a, 5 和 c 为 参数 ， 
在 上 式 两 边 取 自 然 对 数 ， 得 到 


In(Q:) = In(a) + bln(Li) + cln(Ki). 


若 令 
¥ = ln(Q:), za = In(Li), ze = In(Ki), 


Bo=In(a), Bi=b, Pa=e, 
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再 加 上 误差 项 ， 便 得 到 线性 关系 
=PBot+Pira t+ Bart + er, 


因此 我 们 把 原来 的 非 线性 模型 化 成 了 线性 模型 . 

例 1.1.4 多 个 自 变量 的 多 项 式 

我 们 知道 ,任何 光滑 函数 都 可 以 用 足够 高 阶 的 多 项 式 来 珊 近 . 因此 ， 当 因 变 量 
Y 和 诸 自 变量 之 间 的 关系 不 是 线性 关系 时 ， 我 们 可 以 用 多 元 多 项 式 来 近似 ， 有 时 
可 能 还 要 添加 若干 自 变量 的 交叉 积 ， 例 如 


Y=potBXi+BXa + BuxX?+B22X2 二 BizXiX2 二 e. 


这 样 的 模型 往往 出 现在 化 学 工程 领域 的 研究 之 中 ， 其 目的 是 求 诸 自 变量 的 一 个 组 
合 ， 使 得 因 变 量 Y 达到 最 大 或 最 小 ， 这 类 问题 称 为 响应 曲面 设计 . 

引进 新 变量 Xa = X?,X4 = X3, Xs = XiX2, 上 述 模型 变 成 了 一 个 线性 模型 . 
从 这 里 我 们 可 以 看 出 ,线性 模型 中 “线性 ”二 字 实 质 上 是 指 Y 关于 未 知 参数 8; 的 
关系 是 线性 的 . 

最 后 ,我 们 解释 一 下 “回归 ”一 词 的 由 来 . “回归 ”英文 为 “ regression "， 是 由 
英国 著名 生物 学 家 兼 统计 学 家 Galton( 高 尔 顿 ) 在 研究 人 类 遗传 问题 时 提出 的 ， 为 
了 研究 父 代 与 子 代 身 高 的 关系 , Galton 收集 了 1078 对 父亲 及 其 一 子 的 身高 数据 . 
用 X 表示 父亲 身高 ， 表示 儿子 身高 ， 单 位 为 英寸 (1 英寸 为 2.54cm). 将 这 1078 
对 (wi,%i) 标 在 直角 坐标 纸 上 , 他 发 现 散 点 图 大 致 呈 直 线 状 . 也 就 是 说 , 总 的 趋势 是 
父亲 的 身高 X 增加 时 ， 儿 子 的 身高 Y 也 倾向 于 增加 ， 这 与 我 们 的 常识 是 一 致 的 . 
但 是 ， Galton 对 数据 的 深入 分 析 ， 发 现 了 一 个 很 有 趣 的 现象 一 一 回归 效应 . 

因为 这 1078 个 zi 值 的 算术 平均 值 3 = 68 英寸 而 1078 个 % 值 的 平均 值 为 
了 = 69 英寸 这 就 是 说 , 子 代 身高 平均 增加 了 1 英寸 人 们 自然 会 这 样 推 想 ， 若 父 
亲身 高 为 z, 他 儿子 的 平均 身高 大 致 应 为 z + 1, 但 Galton 的 仔细 研究 所 得 结论 与 
此 大 相 径 庭 . 他 发 现 ， 当 父亲 身高 为 72 英寸 时 (请 注意 ， 比 平均 身高 # = 68 要 高 )， 
他 们 的 儿子 平均 身高 仅 为 71 英寸 .不 但 达 不 到 预期 的 72+1=73 英寸 ， 反 而 比 父 
亲身 高 低 了 1 英寸 反 过 来 ， 若 父亲 身高 为 64 英寸 (请 注意 ， 比 平均 身高 2 = 68 
要 乱 ), 他 们 儿子 平均 身高 为 67 英寸 , 竟 比 预期 的 64+1=65 英寸 高 出 了 2 英寸 . 这 
个 现象 不 是 个 别 的 ， 它 反映 了 一 个 一 般 规律 ， 即 身高 超过 平均 值 2 = 68 英寸 的 父 
亲 ， 他 们 儿子 的 平均 身高 将 低 于 父亲 的 平均 身高 . 反之 ,身高 低 于 平均 身高 2 = 68 
英寸 的 父亲 ， 他 们 儿子 的 平均 身高 将 高 于 父亲 的 平均 身高 ， Galton 对 这 个 一 般 结 
论 的 解释 是 : 大 自然 具有 一 种 约束 力 , 使 人 类 身高 的 分 布 在 一 定时 期 内 相对 稳定 而 
不 产生 两 极 分 化 , 这 就 是 所 谓 的 回归 效应 . 通过 这 个 例子 ，Galton 引进 了 “回归 ” 
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一 词 . 用 他 的 数据 ， 可 以 计算 出 儿子 身高 Y 与 父亲 身高 X 的 经 验 关 系 
Y = 35 + 0.5X, 


它 代表 一 条 直线 ， 人 们 也 就 把 这 条 直线 称 为 回归 直线 . 当然 ,这 个 经 验 回归 直线 只 
反映 了 父子 身高 这 两 个 变量 相关 关系 中 具有 回归 效应 的 一 种 特殊 情况 ， 对 更 多 的 
相关 关系 ， 并 非 都 是 如 此 . 特别 是 涉及 多 个 自 变量 的 情况 中 ， 回 归 效 应 便 不 复 存 
在 . 因此 将 (1.1.6) 或 (1.1.8) 或 (1.1.9) 称 为 线性 回归 模型 ， 并 把 对 应 的 统计 分 析 称 
为 回归 分 析 ， 不 一 定 恰当 . 但 “回归 ”这 个 词 沿用 已 久 ， 实 无 改变 之 必要 与 可 能 . 
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在 上 节 引 进 的 线性 回归 模型 中 , 所 涉及 的 自 变 量 一 般 来 说 都 可 以 是 连续 变量 ， 
研究 的 基本 目的 则 是 寻求 因 变量 与 自 变 量 之 间 客 观 存在 的 依赖 关系 ， 而 本 节 所 要 
引进 的 模型 则 不 同 , 它 的 自 变量 是 示 性 变量 , 这 种 变量 往往 表示 某 种 效应 的 存在 与 
否 , 因而 只 能 取 0, 1 两 个 值 . 这 种 模型 是 比较 两 个 或 多 个 因素 效应 大 小 的 一 种 有 力 
工具 因为 比较 因素 效应 的 统计 分 析 在 统计 学 上 叫做 方差 分 析 ， 所 以 对 应 地 ， 人 们 
将 这 种 模型 称 为 方差 分 析 模型 . 在 一 些 文献 中 , 也 把 这 种 模型 称 为 试验 设计 模型 ， 
这 是 因为 它 所 分 析 的 数据 往往 跟 一 个 预先 安排 的 实验 相 联 系 . 

例 1.2.1 单 向 分 类 (one-way classification) 模型 

现在 我 们 要 比较 三 种 药 治疗 菜 种 疾病 的 效果 ， 药 效 度量 指标 为 Y. 假设 我 们 采 
用 双 盲 实验 法 . 即 病人 不 知道 自己 服用 三 种 药 中 哪 一 种 ,医生 也 不 知道 哪个 病人 服 
用 哪 种 药 ， 只 有 实验 设计 和 分 析 者 掌握 真实 情况 ， 假 设 现在 对 每 种 药 各 有 n 个 人 
服用 ， 记 yi; 为 服用 第 i 种 药 的 第 7 个 病人 的 药 效 测量 值 ， 则 yi; 可 表示 为 


Yij = H+ oi 十 ij i=1,2,3, j=1,.,n, (1.2.1) 


这 里 / 称 为 总 平均 ， as 表示 第 i 种 药 的 效应 ，ei; 表示 随机 误差 ， 其 均值 为 0, 方 
差 都 相等 ， 彼 此 互 不 相关 . 

在 这 个 问题 中 ， 我 们 感 兴趣 的 因素 (或 称 因子 ) 只 有 一 个 ， 即 药品 ， 它 有 三 个 
不 同 的 品种 ， 称 这 三 个 品种 为 因子 的 水 平 或 “处 理 "， 模 型 (1.2.1) 称 为 单 向 分 类 模 
型 (或 单 因素 方差 分 析 模型 ), 这 是 因为 我 们 只 有 “药品 ”这 一 个 因素 . 若 用 矩阵 记 
号 ， 模 型 (1.2.1) 可 写 为 
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用 y, 关 ,6B 和 *e 分 别 表示 上 式 中 的 四 个 向 量 或 矩阵 ， 则 上 述 模型 具有 形式 
y= XB+e. (1.2.2) 


这 和 上 节 引 进 的 线性 回归 模型 (1.1.8) 形式 上 完全 一 样 , 所 不 同 的 是 , 对 现在 情形 ， 
设计 阵 X 的 元 素 只 能 取 1 和 0 两 个 值 ， 除 第 一 列 外 ， 设 计 阵 X 的 每 一 列 对 应 一 
种 药品 ， 若 某 列 中 某 个 位 置 是 1 或 是 0, 则 表示 对 应 的 这 个 病人 服用 了 或 没 服用 该 
列 对 应 的 那 种 药 ， 也 就 是 说 ， 设 计 阵 X 中 的 元 素 zij(7 > 1) 只 表示 了 对 应 的 实验 
中 某 个 处 理 效应 的 存在 与 否 . 容易 看 出 ， 在 (1.2.2) 中 ， 设 计 阵 的 秩 zk(X) = 3, 它 
小 于 大 的 列 数 4, 我 们 称 设计 阵 X 是 列 降 秩 的 ， 这 是 方差 分 析 模 型 的 一 个 特点 . 

例 1.2.2 ”两 向 分 类 (two-way classification) 模型 

假设 在 一 次 生产 实验 中 ， 影 响 产品 质量 指标 Y 的 有 两 个 因素 4 和 B. 设 因素 
4 有 a 个 水 平 ,因素 巨 有 ,个 水 平 . 记 yi; 表示 在 因素 4 的 第 i 个 水 平 ,因素 B 
的 第 j 个 水 平时 生产 的 产品 质量 测量 值 ， 则 yi; 可 分 解 为 


Yi=p+atBtes, i=1l,,a j=1,.,b, (1.2.3) 


这 里 py 仍 为 总 平均 ，aei 为 因素 4 的 第 i 个 水 平 的 效应 ，B; 为 因素 B 的 第 j 个 水 
平 的 效应 ， ef 为 随机 误差 . 仿照 例 1.2.1, 引进 适当 矩阵 记号 ， 模 型 (1.2.3) 也 可 以 
写成 (1.2.2) 的 形式 .这 个 留 给 读者 作 练习 . 

随机 区 组 设计 模型 也 具有 形式 (1.2.3)， 为 了 便于 理解 我 们 采用 农业 实验 的 例 
子 . 假设 一 农业 实验 中 心 从 外 地 引进 三 种 优良 麦 种 ， 在 大 面积 种 植 之 前 ， 先 进行 小 
范围 试验 以 便 选 出 适合 本 地 气候 条 件 的 麦 种 . 我 们 可 以 把 这 三 种 小 麦 种 植 的 施肥 、 
浇 水 等 条 件 控制 在 相同 的 状态 , 但 是 很 难保 证 用 于 实验 的 土地 肥沃 程度 都 一 样 . 为 
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了 克服 这 一 缺陷 , 我 们 先 把 实验 用 的 土地 分 成 若 于 小 块 ， 璧 如 5 块 ， 使 每 一 小 块 土 
地 肥沃 程度 基本 上 一 样 . 在 实验 设计 中 , 把 这 种 小 块 称 为 区 组 (block). 然后 再 把 每 
一 区 组 分 成 若干 更 小 的 块 ， 称 为 试验 单元 . 现 有 三 种 小 麦 品 种 要 比较 , 不 妨 就 把 每 
个 区 组 分 成 三 个 试验 单元 . 随机 区 组 设计 要 求 ， 在 每 个 区 组 中 ,每 种 小 麦 种 在 哪 一 
个 单元 完全 是 随机 的 . 车 用 yi 表示 第 7 个 区 组 种 第 i 种 小 麦 的 那个 试验 单元 的 小 
麦 产 量 ， 则 yi; 就 有 (1.2.3) 分 解 式 、 这 时 ai 就 是 第 i 种 小 麦 ( 即 处 理 , treatment) 
的 效应 . 8; 是 第 j 个 区 组 的 效应 . 因此 随机 区 组 设计 模型 就 是 一 个 两 向 分 类 模型 . 

在 试验 设计 中 ,区 组 是 一 个 很 重要 的 概念 . 为 了 更 清楚 的 掌握 它 的 本 质 ， 我 们 
再 举 一 个 例子 .假设 我 们 用 a 种 工艺 加 工 一 些 产品 ， 现 在 要 比较 这 a 种 工艺 的 优 
劣 ， 用 yi; 表示 第 i 种 工艺 加 工 的 第 ; 件 产品 质量 , oa 为 第 i 种 工艺 的 效应 ， 那么 
ij 可 分 解 为 : gj = 二 ai 二 es, i = 1,…, a,j = 1,…, b. 这 是 一 个 单 向 分 类 模 
型 . 但 是 ， 如 果 我 们 是 用 b 台 设 备 去 检测 它们 的 质量 ， 那 么 就 应 该 把 这 6 台 设 备 的 
差异 考虑 进去 这 样 台 设备 就 成 了 区 组 ， 这 时 yi; 就 可 表示 为 (1.2.3) 的 形式 , 其 
中 B; 是 第 7 台 设备 的 效应 . 

正 是 由 于 上 述 原因 ， 往 往 我 们 也 把 模型 (1.2.3) 称 为 随机 区 组 设计 模型 ， 并 把 
Qi 和 B; 分 别 泛称 为 处 理 效应 和 区 组 效应 .在 一 般 情况 下 ， 这 两 种 效应 不 是 同等 看 
待 的 , 我 们 主要 兴趣 放 在 处 理 效应 上 ， 而 区 组 这 个 因素 的 引入 ,往往 是 为 了 缩小 分 
析 误 差 . 当然 ， 也 有 例外 ， 在 一 些 问题 中 ， 区 组 效应 也 可 能 是 我 们 所 关心 的 . 

例 1.2.3 ”具有 交互 效应 的 两 向 分 类 模型 

在 例 1.2.2 中 ， 因 素 4 和 因素 B 的 效应 具有 可 加 性 ,因为 在 分 解 式 y;; = 
A+os 十 应 +eii 中 ， 因素 4 的 第 i 个 水 平和 因素 B 的 第 ; 个 水 平 对 wj 的 贡献 是 
Qi 二 Bi;; 它 是 各 自 水 平 效应 之 和 . 但 是 ， 在 一 些 实际 问题 中 ， 这 种 情况 不 总 是 成 立 
的 ， 例 如 在 化 工 试验 中 ， 若 因素 4 表示 化 学 反应 的 温度 ， 因 素 B 表示 化 学 反应 的 
压力 ， 两 者 对 化 学 反应 的 质量 或 产量 Y 的 贡献 一 般 不 具有 可 加 性 .如果 对 每 一 个 
水 平 组 合 (i,j) 重复 c 次 试验 ， 这 时 一 个 合理 模型 是 


Yik=p+tartB+t yitesk i=l,,a, j=1,.,b, k=1,...,c, (1.2.4) 


这 里 mi; 称 为 因素 4 的 第 i 个 水 平和 因素 B 的 第 了 个 水 平 的 交互 效应 ， 它 的 出 现 
表明 了 因素 4 的 第 i 个 水 平和 因素 B 的 第 j 个 水 平 对 yi 的 联合 贡献 ， 并 不 是 mi 
和 记 的 简单 相 加 ， 而 是 多 出 了 一 个 部 分 . 为 了 叙述 方便 起 见 ， 我 们 把 a 称 为 因素 
4 的 第 i 个 水 平 的 主 效 应 ， 同 理 称 f; 为 因素 B 的 第 ; 个 水 平 的 主 效应 . 

在 模型 (1.2.4) 中 ， 对 因素 4 和 8 的 每 种 水 平 组 合 (i,j), 重复 观测 次 数 都 是 c， 
这 样 的 模型 称 为 平衡 模型 (balanced model). 在 实际 试验 中 ， 由 于 种 种 客观 原因 ， 
例如 试验 者 退出 试验 ， 试 验 个 体 (动物 ) 死亡 ， 或 生产 事故 而 导致 对 每 种 水 平 组 合 
所 获得 的 观测 数据 个 数 不 相 等 ， 这 时 称 对 应 模型 为 非 平衡 的 (anbalanced model). 
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例 1.2.4 ”三 向 分 类 (three-way classification) 模型 
读者 不 难 想象 ， 如 果 试 验 中 有 4, B,C 三 个 因素 ,它们 的 水 平 数 分 别 为 a, b, c. 
如 果 它 们 之 间 都 没有 交互 效应 ， 那 么 因 变量 的 观测 值 可 分 解 为 


Yiu = ptaithit metess i=bea, 了 


这 里 az B; 和 Ys 分 别 是 因素 4 的 第 i 个 水 平 ， 因素 B 的 第 j 个 水 平和 因素 C 的 
第 上 个 水 平 的 主 效应 ， 对 于 每 种 水 平 组 合 (i,j,*), 试验 重复 次 数 都 是 d, 即 模型 是 
平衡 的 . 如 果 对 水 平 组 合 (i,j,k) 试验 重复 次 数 为 niik, 它们 不 必 相等 ， 则 模型 就 是 
非 平衡 的 . 

在 试验 设计 中 ， 有 一 种 设计 叫 拉丁 方 设计 (latin square design), 它 可 以 表示 为 
三 向 分 类 模型 ， 所 谓 拉丁 方 ， 乃 是 用 n 个 字母 (或 数字 ) 排 成 的 一 个 方块 . 它 的 每 
行 每 列 包含 n 个 字母 中 每 个 字母 恰好 一 次 .由 于 当初 是 用 拉丁 字母 排列 这 种 方块 
的 ， 于 是 ， 称 其 为 拉丁 方 ， 用 来 排 拉丁 方 的 不 同 字母 的 个 数 ， 称 为 拉丁 方 的 阶 ， 例 
如 ， 


ABCD 
ABC 

CHA 
小 如 遂 

CDAB 
© A 

5 下 可 多 


分 别 是 三 阶 和 四 阶 拉丁 方 . 


用 三 阶 拉 丁 方 可 以 安排 三 因素 的 试验 . 例如， 把 第 i 行 对 应 于 因素 甲 的 第 i 
水 平 ， 第 7 列 对 应 于 因子 乙 的 第 j 水 平 ， 中 间 的 字母 4, B,C 分 别 对 应 于 因子 丙 
的 三 个 水 平 ， 这样， 我 们 就 排出 9 个 试验 ， 如 表 1.2.1. 令 上 = k(i,j) 表示 由 表 
1.2.1 惟一 确定 的 由 集合 {(i,j) : ij = 1,2,3} 到 集合 {4, B,C} 的 一 一 映射 ， 例 如 
kz3. 二 上 (2,3) = 4. 若 用 yu 表示 因素 甲 、 乙 、 丙 的 第 i,jk; 水 平 下 的 观测 值 ， 
用 os, B; 和 ,分 别 表示 因素 甲 、 乙 、 丙 的 第 j,kij 水 平 下 的 效应 ， 在 不 存在 交 
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互 效应 的 情况 下 ， 我 们 有 模型 
Yijkis = H+ ot + 十 el i=1,2,3, j=1,2,3, 


这 是 一 个 三 向 分 类 模型 . 

对 于 后 三 个 例子 ， 仿 照例 1.2.1 引进 适当 的 矩阵 记号 ， 这 些 模 型 都 可 以 写成 
y=XB8+e 的 形式 ,我 们 建议 读者 去 做 这 件 事 ， 当 你 完成 这 种 表示 之 后 ， 就 会 发 
现 ， 设 计 阵 X 与 例 1.2.1 一 样 ， 它 的 元 素 zi; 只 取 0 和 1 两 个 值 ， 并 且 秩 rk(X) 小 
于 X 的 列 数 ， 即 X 是 列 降 秩 的 . 
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我 们 已 经 知道 , 线性 回归 模型 所 涉及 的 自 变量 一 般 是 取 连 续 值 的 数量 因子 . 设 
计 阵 X 的 元 素 zi; 可 取 连 续 值 ， 而 在 方差 分 析 模型 中 ， 自 变量 是 属性 因子 ， 设 计 
阵 区 的 元 素 zi; 只 能 取 0 、 1 两 个 值 . 现在 我 们 要 介绍 的 协 方差 分 析 模 型 则 是 上 述 
两 种 模型 的 混合 . 模型 中 的 自 变量 既 有 属性 因子 又 有 数量 因子 . 设计 矩阵 由 两 部 分 
组 成 ， 一 部 分 以 0、1 两 个 数 为 元 素 ， 而 另 一 部 分 的 元 素 可 取 连 续 值 ， 它 可 以 看 作 
由 方差 分 析 模型 和 线性 回归 模型 的 设计 和 抢 阵 组 拼 而 成 . 

我 们 用 一 个 经 典 的 例子 来 引进 这 种 模型 . 假定 试验 者 用 几 种 饲料 喂养 小 猪 , 并 
以 小 猪 的 生长 速度 (用 小 猪 体重 增加 量 来 度量 ) 来 比较 饲料 的 催肥 效果 ， 这 是 一 个 
单 向 分 类 问题 . 如 前 所 述 在 试验 中 我 们 要 求 除 饲料 外 , 其 余 因 素 应 该 尽量 控制 在 相 
同 条 件 之 下 . 但 是 ,在 这 里 参与 试验 的 小 猪 初始 体重 不 同 ,可 能 对 生长 速度 有 一 定 
影响 . 为 了 消除 这 种 影响 ， 可 以 采取 两 种 方法 :其 一 是 选择 体重 都 一 样 的 小 猪 来 做 
试验 ， 但 这 个 条 件 很 苛刻 ， 在 实际 中 真正 做 起 来 困难 很 大 ， 另 一 种 方法 是 ， 设 法 把 
小 猪 初始 体重 的 影响 消除 掉 , 这 正 是 协 方差 分 析 所 要 解决 的 问题 . 在 这 个 例子 里 ， 
猪 的 饲料 分 几 个 品种 ， 是 属性 因子 ， 称 为 方差 分 量 . 小 猪 的 初始 体重 是 因为 试验 者 
难以 很 好 的 控制 而 进入 试验 的 ， 称 为 协 变量 (或 伴随 变量 ), 它 是 连续 变量 . 

例 1.3.1 试验 者 欲 比较 两 种 饲料 的 催肥 效果 ， 用 每 种 饲料 喂养 三 头 猪 . 要 考 
虚 的 协 变量 是 小 猪 的 初始 体重 ， 记 yi 为 喂 第 ;种 饲料 的 第 ; 头 猪 的 体重 增加 量 ， 
则 yi; 可 分 解 为 


3 =A+oi+7Tzz+ei， 1=12，7=12,3， (1.3.1) 


这 里 和 单 向 分 类 模型 一 样 ， 为 总 平均 ， a 为 第 ; 种 饲料 的 效应 , zi 为 喂 第 站 种 
饲料 的 第 了 头 猪 的 初始 体重 , Y 为 协 变量 的 系数 ， 即 回归 系数 . ei; 的 假设 同 单 向 分 
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类 模型 ， 若 记 
3201 1 1 0 zu el 
Yi2 1 1 0 zl2 el2 

Yi3 站 = 1 1 0 zs 角 al 本 el3 ， 

VY2l 1 0 1 zzl a e21 
Y22 1 0 1 zr22 ~ e22 
Y23 10 1 vas e23 

则 模型 (1.3.1) 具有 形式 

y= XB+e, (1.3.2) 


这 和 前 两 节 引进 的 线性 回归 模型 (1.1.8) 和 方差 分 析 模型 (1.2.2) 在 形式 上 完全 一 
样 ， 它 的 特点 是 : 设计 阵 X 的 部 分 列 的 元 素 只 取 0 或 1, 剩余 列 的 元 素 则 取 连 续 
值 ， 我 们 把 此 类 模型 称 为 协 方差 分 析 模 型 ， 它 也 是 一 种 特殊 的 线性 模型. 

协 方差 分 析 模型 虽然 是 线性 回归 模型 和 方差 分 析 模型 的 一 种 “混合 "， 但 是 我 
们 对 这 两 部 分 并 不 同等 看 待 ， 像 例子 中 所 看 到 的 ， 回 归 部 分 只 是 因为 某 些 量 不 能 
完全 人 为 控制 而 不 得 已 引入 的 .虽然 对 回归 系数 的 估计 与 检验 也 有 一 定 的 实际 意 
义 ， 但 总 的 说 起 来 ， 对 协 方差 分 析 模 型 我 们 最 关心 的 还 是 方差 分 析 部 分 . 因而 这 种 
模型 的 统计 分 析 一 协 方差 分 析 ， 基 本 上 具有 方差 分 析 的 特色 ， 即 有 关 效 应 存在 性 
的 检验 占有 突出 地 位 , 与 方差 分 析 比 较 起 来 , 在 协 方差 分 析 中 并 没有 引进 任何 新 的 
概念 ， 实 际 上 它 只 是 一 种 计算 方法 ， 旨 在 利用 一 般 方差 分 析 的 结果 很 简便 地 作协 方 
差分 析 模 型 的 统计 分 析 ， 详 细 的 讨论 将 留 在 第 八 章 进行 . 


$1.4 混合 效应 模型 
混合 效应 模型 的 最 一 般 形式 为 


y= XB+Ué + Uaé2 + :+ Urék, (1.4.1) 


其 中 y 为 n x 1 观测 向 量 ，XX 为 n xp 已 知 设计 阵 ，B 为 p x 1 非 随机 的 参数 向 
量 ， 称 为 固定 效应 ，Ui 为 n x gi 已 知 设计 阵 ，é&; 为 gi x 1 随机 向 量 ， 称 为 随机 效 
应 ， 一 般 我 们 假设 


E(&)=0, Cov(é&)=o?ly, Cov(é€,€))=0, ii 六 
于 是 
大 
E(W)=Xp, Cov(y)= DUU,, (1.4.2) 
i=1 


81.4 混合 效应 模型 a 


02 称 为 方差 分 量 ， 因 此 ， 往 往 也 称 (1.4.1) 为 方差 分 量 模型. 

在 模型 (1.4.1) 中 ， 最 后 一 个 随机 效应 向 量 & 是 通常 的 随机 误差 向 量 e, 而 
Uk = 三 对 于 混合 效应 模型 ， 我 们 的 问题 是 对 两 类 参数 ， 固 定 效应 和 方差 分 量 作 
估计 和 检验 ， 并 对 随机 效应 & 进行 预测 . 

例 1.4.1 两 向 分 类 混合 模型 

研究 人 的 血压 在 一 天 内 的 变化 规律 .在 一 天 内 选择 a 个 时 间 点 测量 被 观测 者 
的 血压 ， 假 设 观测 了 。 个 人 ， 用 yi; 表示 第 i 个 时 间 点 的 第 了 个 人 的 血压 ， 则 yy 
可 表 为 

yi=ptathites, i= ,a j=1,.,b, (1.4.3) 


这 里 os 为 第 i 个 时 间 点 的 效应 , 它 是 非 随机 的 ， 是 固定 效应 。 6; 为 第 了 个 人 的 个 
体 效应 .如 果 这 b 个 人 是 我 们 感 兴趣 的 特定 的 5b 个人， 那么 B; 也 是 非 随机 的 ， 是 
固定 效应 .这 时 模型 (1.4.3) 就 是 固定 效应 模型 ， 这 是 在 $1.2 我 们 讨论 过 的 两 向 分 
类 模型 . 但 是 ， 如果 我 们 要 研究 的 兴趣 只 是 放 在 比较 不 同时 间 点 人 的 血压 高 低 上 ， 
被 观测 的 b 个 人 是 随机 抽取 的 ， 这 时 8; 就 是 随机 变量 ， 于 是 在 这 种 情况 下 ， 它 就 
是 随机 效应 ， 相 应 的 ， 模 型 (1.4.3) 就 是 混合 效应 模型 . 

Thompson 曾经 研究 了 用 几 台 设备 同时 测量 炮弹 速度 问题 . 假设 试验 所 用 的 炮 
弹 都 是 从 某 厂 生产 的 同 种 炮弹 的 总 体 中 随机 抽取 的 . 记 ys; 可 分 解 成 模型 (1.4.3) 的 
形式 , 对 现在 的 情况 ， ai 是 第 i 台 设 备 的 效应 ， 它 是 固定 效应 ， 6; 是 第 ; 发 炮弹 
的 效应 ， 因 为 炮弹 是 随机 抽取 的 ， 所 以 它 是 随机 的 ， 于 是 B; 是 随机 效应 . 

从 上 面 的 讨论 我 们 可 以 看 出 , 一 个 效应 究竟 看 作 随 机 的 还 是 固定 的 , 这 取决 于 
研究 的 目的 和 样品 取得 的 方法 . 如 果 观测 的 个 体 是 随机 抽取 来 的 , 那么 它们 的 效应 
就 是 随机 的 ， 否 则 就 是 固定 的 . 

引进 适当 的 矩阵 记号 ， 模 型 (1.4.3) 可 以 写成 (1.4.1) 的 形式 . 记 


Y= (的 
这 是 ab x 1 的 向 量 . 
X=(lo:l Bl), UVU=1l.8h, 7=(h,0,.…,aa), 


B=(B,%,Bs), = 人 (en elb Col): ,eab)’, 


其 中 @ 表示 矩阵 的 Kronecker 乘积 ( 见 第 二 章 ), 1 表示 n x 1 向 量 ， 它 的 所 有 元 素 
均 为 1. 此 时 ， 模 型 (1.4.3) 变形 为 


y= XY+UB+e. 
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一 般 我 们 总 是 假设 所 有 随机 效应 都 是 不 相关 的 ,Var(B;) = o3, Var(ei5i) 二 0?. 则 观 
测 向 量 的 协 方差 阵 为 


Cov(y) = oBUU’ + 0? 1 = 03(Ja ® Js) + oTab, 


其 中 h = lnl4. o3 和 o? 是 方差 分 量 . 

例 1.4.2 ”Panel 数据 模型 

这 个 模型 常常 出 现在 计量 经 济 学 中 ， 假 设 我 们 对 N 个 个 体 ( 如 个 人 ， 家 庭 ， 
公司 ， 城 市 ， 国 家 或 区 域 等 ) 进行 了 T 个 时 刻 的 观测 ， 观 测 数 据 可 写 为 


因 王 BETE 1 t=1,D, (1.4.4) 


其 中 yi 表示 第 i 个 个 体 第 t 个 时 刻 的 某 项 经 济 指标 ，zit 是 px 1 已 知 向 基 , 它 刻 
画 了 第 i 个 个 体 在 时 刻 :的 一 些 自 身 特征 ，&: 是 第 i 个 个 体 的 个 体 效应 ，eit 是 随 
机 误差 项 . 

如 果 我 们 的 目的 是 研究 整个 市 场 的 运行 规律 ， 而 不 是 关心 这 特定 的 N 个 个 
体 ， 这 N 个 个 体 只 不 过 是 从 总 体 中 抽取 的 随机 样本 ， 这 时 个 体 效应 就 是 随机 的 ， 
记 


y= YT Ya YNT), X= (Zi, ZIT, T21, ,NT), 


=In@lr, €=(€,°,€N), = (eeT, E21, ENT). 


则 模型 (1.4.4) 可 表 为 
y= XB+Ué+e. 


如 果 假 设 Var(6i) = o2, Var(et) = 02, 所 有 6 和 eit 都 不 相关 ， 则 
Cov(y) = ofUiU! + o2INr = of(IN ® Jr) + 021n7, 
ce 和 02 就 是 方差 分 量 . 
模型 (1.4.4) 也 称 为 具有 套 误 差 结 构 (nested error structure) 的 线性 模型 ， 它 也 


常 出 现在 试验 设计 、 抽 样 调查 等 类 问题 中 . 
在 上 述 问题 中 ， 如 果 我 们 把 时 间 效应 也 考虑 进来 ， 则 模型 (1.4.4) 可 以 改写 为 


Vit = ThB + + Mt ei i=b WN t=,T; (1.4.5) 


如 果 时 间 效应 X 也 看 成 随机 的 ， 并 且 假设 Var(Xt) = o3, A; 与 所 有 的 &; 和 sit 不 
相关 ， 记 殉 = 1N @ I7, 和 = (和 1,…, 和 zr)', 则 我 们 得 到 如 下 模型 


y=XB8+IE+U2A+e. 


习题 一 > 


此 时 ， 观 测 向 量 的 协 方差 阵 为 
Cov(y) = o2(In ® Jr) + oN(Jy ® Ir) + 0?IN7, 
oo 和 o2 为 方差 分 量 . 


习题 一 


1.1 假设 一 物体 真实 长 度 为 y, p 是 未 知 的 ， 我 们 欲 估计 它 ， 于 是 将 其 测量 了 n 次 ， 得 到 
测 最 值 为 y1,yz,.…, yn. 如 果 测量 过 程 没有 系统 误差 ， 我 们 可 以 认为 ys, i = 1,2,…,n 为 来 自 
于 正 态 总 体 N(k,0”) 的 一 组 随机 样本 ， 试 将 这 些 观测 数据 表 成 线性 模型 的 形式 . 

1.2 某 公司 采用 一 项 新 技术 试验 以 求 提高 产品 质量 设 在 试验 前 , 随机 抽取 的 ni 件 产品 的 
质量 指标 值 为 yi,y2,…, yn, 它们 可 看 成 是 来 自 正 态 总 体 N(jn,o?) 的 一 组 样本 ， 而 试验 后 ， 
随机 抽取 的 n2 件 产 品 的 质 基 指标 值 为 z1,z2,… ,zns, 它们 可 看 成 是 来 自 止 态 总 体 Nia,c2) 
的 一 组 样本 ， 为 了 考察 这 项 新 技术 的 效果 ， 需 要 比较 pl 和 ps2, 因此 需要 先 估计 它们 . 

(1) 试 将 这 些 数据 表 成 线性 模型 的 形式 ; 

(2) 在 实际 问题 中 ， 如 果 z1, za，…，,zna 的 值 相 比 y1,y2,…, yn， 有 很 大 不 同 ， 往 往 认 为 它 
们 的 变异 程度 也 就 不 同 ， 于 是 我 们 不 能 再 假定 这 两 个 正 态 总 体 有 公共 的 方差 ， 这 时 认为 它们 分 
别 来 自 正 态 总 体 N(j1,o?) 和 N(jpz,o3) 比较 适宜 ， 试 问 这 时 (1) 中 所 表示 的 线性 模型 应 该 有 
怎样 的 修正 ? 

1.3 用 两 台 仪器 测量 同一 批 材料 的 各 3 件 样品 的 某 种 成 分 的 含量 . 记 测量 值 分 别 为 yn1, yi2, yis 
和 ya1, yaz,yza, 由 于 两 台 仪器 可 能 存在 着 性 能 上 的 差异 ， 在 表示 这 些 数据 时 需要 考虑 仪器 的 效 
应 ， 记 之 为 cx 和 az, 试 将 这 些 测量 数据 表 成 某 成 分 含量 k 和 an,as 的 线性 模型 . 

1.4 下 面 模型 是 否 表示 一 般 线 性 模型 ? 如 果 不 是 ， 能 否 通过 适当 的 变换 使 之 成 为 线性 模 
型 ? 

(1) y= PBo+Pizis + Par? + Balnzis + ei; 

(2) yi = eiexp(Bo + Bizn + Prd); 

(3) y= [1+exp(Bo + Bza + ei)] /2; 

(4) y=Po+PB(za + ze2) + baer + BslIn(zh)+ei. 

1.5 考虑 如 下 两 因素 设计 模型 


yi = ta + B+ ei i=h20 j=h2.,b, 


其 中 jai 所 为 未 知 参 数 ， 试 将 其 表示 为 短 阵 形式 的 线性 模型 y = XB + e , 并 写 出 其 设计 阵 
X. 

1.6 (判别 分 析 问题 也 可 纳入 线性 模型 ) 设 有 两 个 p 元 总 体 ri 和 7. 现 有 从 这 两 个 总 体 中 
抽取 的 随机 样本 = 人， 名，… ，z 人 0 和 z 四，z 让 ，.…，z 多 ， 称 为 训练 样本 ， 判 别 分 析 的 任务 
是 ,用 这 些 训练 样本 建立 p 元 判别 函数 f(z1,… ,zp) 和 临界 值 . 对 于 一 个 归属 未 知 的 新 样本 ， 
根据 它 的 判别 函数 f(z1,…-, zp) 的 值 是 否 大 于 临界 值 来 推断 该 样本 是 来 自 ri 还 是 来 自 rz. 
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引进 假 变量 Y 作为 因 变 量 ， 规 定 的 取 值 为 
全 对 应 自 变量 为 z0)， 了 一 1 2，ma， 

和 2， ”对 应 自 变量 为 229， j= 1,2,…,nz， 
这 里 Xt，》a 为 任意 两 个 不 等 的 实数 ， 例 如 可 取 和 1 = 1, 和 2 = 0. 试 把 这 个 问题 写成 线性 回归 模 
型 的 形式 - 于是， 判别 分 析 问 题 可 以 按 线性 模型 回归 问题 去 处 理 ， 可 以 证 明 ， 这 样 建立 的 判别 
函数 与 经 典 的 Fisher 判别 等 价 . ) 


SC 
= 


第 二 章 “” 矩阵 论 的 预备 知识 


在 第 一 章 ,我们 引进 了 线性 模型 .从 线性 模型 的 表达 式 , 读者 不 难 想象 ， 在 线 
性 模型 的 统计 推断 中 , 矩阵 将 是 一 个 十 分 重要 的 工具 . 为 了 适应 后 续 章节 的 需要 ， 
本 章 将 讨论 有 关 和 矩阵 论 的 一 些 预备 知识 . 

我 们 用 大 写字 母 4, B,…, 表示 抢 阵 ， m 行 m 列 的 矩阵 4 称 为 m x n 和 矩阵 4， 
记 为 Amxn 或 4. 用 水 表示 4 的 转 置 矩 阵 ，mm x1 抢 阵 称 为 列 向 量 ，1 xm 矩阵 称 
为 行 向 量 . 在 不 会 混 清 的 情况 下 ,以 后 总 用 小 写字 母 a,b,… 表示 列 向 量 ，a',& 
就 是 行 向 量 . 矩阵 4 的 秩 记 为 kk(4). 称 方 阵 4xn 的 对 角 线 元 素 之 和 并 ”aii 为 
4 的 迹 ， 记 为 tr(4). 车 4 为 正定 对 称 方 阵 ， 则 记 为 4 > 0. 若 4 为 半 正 定 对 称 方 
阵 ， 则 记 为 4> 0. 记号 4> B, 表 示 4-B>0. 而 4>B, 表 示 4A-B>0. 无 特 
殊 声 明 ， 本 书 所 讨论 的 矩阵 皆 为 实 矩阵 . 

本 章 的 安排 是 这 样 的 : $2.1 用 线性 空间 的 矩阵 表示 ， 简 略 地 叙述 线性 空间 的 一 
些 性 质 。 82.2 ~ 82.3 讨论 矩阵 的 广义 逆 、 竹 等 阵 和 投影 阵 . 82.4 六 述 特征 根 的 极 
值 性 质 和 一 些 重要 的 不 等 式 . 最 后 两 节 ， 讨 论 矩 阵 的 Kronecker 乘积 、 和 矩阵 的 向 量 
化 运算 以 及 和 矩阵 微 商 . 


82.1 线性 空间 


为 了 适应 后 面 讨论 的 需要 ， 本 节 用 线性 空间 的 矩阵 表示 ， 简 要 报 述 线性 空间 
的 一 些 基本 结果 ， 并 引进 一 些 记号 . 我 们 仅 限于 讨论 n x 1 实数 向 量 组 成 的 线性 空 
间 ， 它 是 直观 的 二 、 三 维 向 量 空间 的 自然 推广 . 

所 谓 线 性 空间 5 乃 是 向 量 的 一 个 集合 ， 它 对 向 量 加 法 和 数 乘 两 种 运算 具有 封 
闭 性 ， 即 $ 中 任意 两 个 向 量 之 和 和 皆 仍 在 S 中 ，S 中 任 一 向 量 与 任 一 实数 的 乘积 也 
仍 在 $ 中 , 且 满 足 加 法 结合 律 和 交换 律 ， 数 乘 结合 律 和 分 配 律 等 基本 性 质 . 记 全 体 
?xl 实 向 基 组 成 的 集合 为 R,, 它 是 一 个 线性 空间 . 考虑 Ra 中 向 量 组 a1, az, ,ok 
的 一 切 可 能 的 线性 组 合 构成 的 集合 


So = 人 = Sa cm，…,ak 均 为 实数 } 4 
i=1 


容易 验证 ， So 也 是 线性 空间 ， 称 为 忆 , 的 子 空间 ， 若 将 a1,a2,…,ak 排 成 mx 天 
和 矩阵 4 = (a1,42,…,ak), 则 So 可 表 为 So = {z = 4t te Rk}, 它 是 4 的 列 向 量 
张 成 的 子 空间 ， 记 为 9 = M(A4). 容易 证 明 ， RR 的 任 一 子 空间 都 是 菜 一 矩阵 的 
列 向 量 张 成 的 子 空间 . 设 a1,42,… ,ak 为 Rs 中 的 一 组 向 量 ， 若 存在 不 全 为 零 的 实 
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数 ab az,……,ak, 使 得 aaal 十 … 十 akax = 0, 则 称 向 量 组 ai,aa,……,ax 是 线性 相关 
的 ; 否则 称 它们 是 线性 无 关 的 . 如 果子 空间 So 由 一 组 线性 无 关 的 向 量 a1,a2,… ,ak 
张 成 ， 则 称 a1,a2,… ,ax 为 So 的 一 组 基 ， 大 称 为 So 的 维 数 ， 记 作 上 = dim(5o). 
对 R。 而 言 ， 向 量 组 ef = (0,…,0,1,0,…,0), i = 1,2,…,n 为 一 组 基 ， 这 里 ， 在 
ei 中 ，1 位 于 第 i 个 位 置 ， 所以, R， 的 维 数 为 n. 记 I = (e1,…,en) 为 n 阶 单位 
阵 ， 则 Rn = M(1n). 设 4= (a1,a2,…,ak),B = (b1,b2,…,b1), 则 容易 证 明 

(1) dimM(A) = rk(A); 

(2) M(4) Cc M(4: B), 特别 若 bj,j = 1,2,…,1 可 表 为 a1,a2,…,ak 的 线性 组 
合 ， 则 M(4) = M(4: B). 

对 Rs 中 的 任意 两 个 向 量 a = (a1,02,… an), 5 = (b1,b2,…,bn)， 定 义 它们 
的 内 积 为 (@,5) = a%b = 部 aibi. 若 (co = 0, 则 称 a 与 5 正 交 ,， 记 为 a16b. 车 
4 与 子 空间 5 中 的 每 一 个 向 量 正 交 ， 则 称 a 正 交 于 5, 记 为 a 1 5. 称 (a'a)!/? = 
( 杞 二 1 加 )! 人 2 为 向 量 a 的 长 度 ， 记 为 llal. 设 8 为 一 子 空间 ， 容 易 证 明 


SL+={zzLSl 


也 是 线性 空间 ， 称 为 S 的 正 交 补 空间 . 设 4 为 mx 大 矩阵 ， 记 44 为 满足 条 件 
44+ =0 且 具有 最 大 秩 的 矩阵 ， 则 


A1(4L) = M(A)-. (2.1.1) 
对 于 一 个 线性 空间 5, 如 果 存 在 上 个 子 空间 51,…, Sh, 使 得 对 任意 ae 5, 可 惟一 
分 解 为 


a=a1+.…+axk, a ES i=1,2,..…,k, 


则 称 5S 为 51,…,Sk 的 直 和 ， 记 为 5 = Si @… @ Sk. 车 进一步 假设 ， 对 任意 的 
a € 5i, 4 € 5;, i 关 j 了 有 ai aj, 则 称 5 为 51,…,Sk 的 正 交 直 和 ， 记 为 3 = 
3 十 十 Sk 特别 Rn = 5 十 S+ ,对 R, 的 任 一 子 空间 S 成 立 . 设 A= (A1: … :4h)， 
M(Ai)M(4;) = {0}, i 7 则 


M(A)= M(A1)@.…@ M(A). 
车 进一步 假设 A414; = 0, i 关 j, 则 
At(4) = M(A1) 十 … 十 (4k) . 


这 些 事实 的 证 明 留 给 读者 作 练习 . 
下 面 几 个 事实 ， 在 后 面 的 讨论 中 会 经 常用 到 . 
定理 2.1.1 ”对 任意 矩阵 4, 恒 有 At(4) = M(A44). 
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证 明 显然 M(44) c M(4), 故 只 需 证 M(4) Cc M(44'). 事实 上 ， 对 任 给 
z 1 M(AA'), 有 zi44 =0. 右 乘 z, 得 zh44h'z = |4'zl? = 0 故 A'z =0. 于 是 
z 上 At(4). 明 所 欲 证 . 

定理 2.1.2 设 Anxm, Hexm, 则 

(1) 5S= {hz :Hz=0} 是 M(4) 的 子 空间 ， 


攻 
(2) dim(S) = — rk(H). 
H 


证 明 第 一 结论 的 证 明 是 简单 的 ， 现 证 (2). 不 妨 设 tk( 互 ) = k, 则 存在 m x mm 
可 逆 阵 @, 使 得 HQ = (I : 0). 于 是 


dim(S) = dim z: Hr =09 = dim Qzr: HQr = 0 
H H 


U Us 
= dim | ( ) z: (lk : 0)z = | = dim{U2z(2): xz(2) 任 意 } 
0 


天 


( 如 党 ) ( , ) 
=rk(UV2) = rk — tk(1) = 让 —1k(H), 
I 0 H 


其 中 (Ui : Us) = 49， <- an zg) 为 (m 一 和 x1 向 


Z(2) 
基 ， 定理 证 毕 . 
推论 2.1.1 设 M(4)nM(B)={0}, 则 M(4'B+)=M(A'). 
证 明 因为 
M(4'B+) = {A'z,z = B+t,t 任 意 } = {A'z, B'z = 0}, 
依 定理 2.1.2 及 假设 条 件 ， 有 


要 
dimAM(4'B+) = | 


) 一 zk(B) = zk(4; B) 一 zk(B) = zk(4) = dim(M(A')). 
BB 


但 


At(4'BL) C M(A'), 


于 是 
A4(4'BL) = N(4). 
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定理 证 毕 . 


82.2 广义 逆 矩 阵 


广义 逆 矩 阵 的 研究 可 以 追溯 到 1935 年 的 Moore 的 著名 论文 ga. 对 任意 一 个 
和 矩阵 4, Moore 用 如 下 四 个 条 件 : 


AXA= 4, 
A 

(AX)' = AX, 
(XA)’ = XA, 


定义 了 4 的 广义 逆 X. 但 是 ， 在 此 后 的 20 年 中 ， 这 种 广义 逆 几 乎 没有 引起 人 们 的 
多 少 注意 .直到 1955 年 ， Penrosels"] 证 明了 满足 上 述 条 件 的 广义 道具 有 惟一 性 之 
后 , 广义 逆 的 研究 才 真 正 为 人 们 所 重视 . 基于 这 个 原因 ， 人 们 把 满足 上 述 四 个 条 件 
的 广义 道 称 为 Moore-Penrose 广义 道 ， Penrose 还 首先 注意 到 了 广义 逆 和 线性 方程 
组 的 解 之 间 的 关系 . 
对 于 相 容 线性 方程 组 
4z =6b, (2.2.1) 


这 里 4 是 m x n 矩阵 ， 其 秩 rk(4) = > < min(m,n)， 众所周知 ， 当 +=m=n 
时 ， 方 程 组 (2.2.1) 有 惟一 解 > = 4-1b. 然而 ， 当 4 不 可 逆 或 根本 不 是 方 阵 时 ， 若 
(2.2.1) 有 无 穷 多 解 ， 如 何 用 4 和 通过 简单 的 形式 表征 (2.2.1) 的 全 体 解 是 很 困难 
的 . Penrosels7l 指出 ， 在 研究 (2.2.1) 的 解 时 ， 所 要 用 的 广义 逆 只 需要 满足 上 面 的 
第 一 个 条 件 ， 从 这 以 后 ， 20 世纪 50 年 代 后 期 到 60 年 代 初期 ， 关 于 这 种 广义 逆 的 
研究 出 现 了 大 量 的 文献 ， 并 且 用 这 种 广义 逆 彻 底 解决 了 相 容 线性 方程 组 (2.2.1) 的 
解 的 表征 问题 .我 们 把 这 种 广义 逆 记 作 4-. 本 段 讨论 这 种 广义 逆 的 性 质 及 其 在 线 
性 方程 组 理论 中 的 应 用 ， 关 于 广义 逆 矩 阵 的 深入 讨论 读者 可 参阅 文献 [16]. 


2.2.1 广义 逆 A 
定义 2.2.1 ”对 矩阵 4mxn, 一 切 满足 方程 组 
4X4=4 (2.2.2) 


的 矩阵 X, 称 为 矩阵 4 的 广义 着 ， 记 为 4-. 
下 面 的 定理 解决 了 4- 的 存在 性 和 构造 性 问题 . 
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定理 2.2.1 设 4 为 mxn 和 矩阵 ，rk(4)=7. 若 


五 0 
A=P Q， 
0 0 


这 里 己 和 @ 分 别 为 mm x m,nxn 的 可 道 阵 ， 则 


I B 
A-=Q-! pl 
CD 


这 里 B, C 和 D 为 适当 阶 数 的 任意 矩阵 . 
证 明 设 关 为 4 的 广义 逆 ， 则 有 


则 上 式 
Bun 0 1I. 0 
> = < 一 Bu = 1,. 
( 0 0 ) ( 0 0 ) 


I By 


忆 其 中 Bi2, Bzl 和 Bzz 任意 . 
Ba B22 


于 是 ， | 


证 毕 . 

推论 2.2.1 (1) 对 任意 矩阵 4，4- 总 是 存在 的 ; 

(2) 4- 惟一 >4 为 可 逆 方 阵 . 此 时 4- = 4-31; 

(3) rk(4-) > zk(4) = zk(4-4) = zk(44-); 

你 车 MB) c M(4),M(C) Cc M(4'), 则 C'4-B 与 4- 的 选择 无 关 . 

证 明 ”前 三 条 结论 不 难 从 定理 2.2.1 及 广义 逆 的 定义 得 到 .第 四 条 只 要 注意 
到 ， 假 设 条 件 M(B) c M(4), M(C) c M(4') 蕴涵 着 ， 存 在 矩阵 T, 荆 使 得 B = 
AT1,C = A'Tz, 就 可 证 明 所 要 结论 . 证 毕 . 
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推论 2.2.2 ”对 任 一 矩阵 4， 

(1) 4(4'4)44 与 广义 逆 (4'4)- 的 选择 无 关 ; 

(2) A(A'A)~A'A = 4，44(4A4)-4 = 4 

证 明 (1) 由 定理 2.11 知 M(4') = AM(4'4), 故 存在 矩阵 B, 使 得 4' = A'AB. 
于 是 ， 4(4'4)-4' = B'4'4(4'4)-4'4 刀 = B'A’'AB, 与 (4'4)- 无 关 . 

(2) 记忆 = 4(4'4)-4'4 - 4, 利用 广义 逆 的 定义 ， 可 以 验证 : F'F = 0. 于 是 
五 = 0. 第 一 式 得 证 ， 同 法 可 证 第 一 式 . 

推论 2.2.2 的 结论 非常 重要 ， 以 后 我 们 要 反复 用 到 . 

下 面 的 两 个 定理 圆满 地 解决 了 用 广义 逆 矩 阵 表示 相 容 线性 方程 组 解 集 的 问 
题 . 

定理 2.2.2” 设 hz = 为 一 相 容 方程 组 ， 则 

(1) 对 任 一 广义 逆 4-，z = 4-b 必 为 解 ; 

(2) 齐 次 方程 组 4z = 0 的 通 解 为 x = (T- 4-4)z, 这 里 z 为 任意 的 向 量 ， 4- 
为 任意 固定 的 一 个 广义 逆 ; 

(3) 4z = 5 的 通 解 为 

z= A-b+(I— A-A)z, (2.2.3) 


其 中 4- 为 任 一 固定 的 广义 逆 ， z 为 任意 向 量 . 

证 明 (1) 由 相 容 性 假设 知 ， 存 在 zo, 使 4zo = b， 故 对 任 一 4-, A(4-b) = 
44-4zo = 4zo = b. 即 4- 为 解 . 

(2) 设 zo 为 hz = 0 的 任 一 解 ， 即 Azo = 0, 那么 


Zo=(I—- A A)zo+A-Azo = (1— A-A)zo, 


即 任 一 解 都 取 (I 一 4- 4)z 的 形式 . 反 过 来 ， 对 任 一 的 z, 因 A(I - A- 4)z = (4 一 
A4~A)z = 0, 故 (1 一 4-A4)z 必 为 解 . 

(3) 任 取 定 一 个 广义 逆 4-, 由 (1) 知 ri = 4-6 为 方程 组 4z = 的 一 个 特 解 . 
由 (2) 知 z2 = (1 一 4-4)z 为 齐 次 方程 组 Az = 0 的 通 解 。 依 非 齐 次 线性 方程 组 的 
解 结构 定理 知 ， zi + z2 为 4z = 的 通 解 . 证 毕 . 

定理 2.2.3 ” 设 4z =。 为 相 容 线性 方程 组 且 5b 关 0, 那么 , 当 4- 取 遍 4 的 
所 有 广义 逆 时 ， z = A-6b 构成 了 该 方程 组 的 全 部 解 . 

证 明 ”证 明 由 两 部 分 组 成 ， 其 一 ， 要 证 对 每 一 个 4-, z = 4-b 为 hz =b 的 
解 ， 这 已 在 前 一 定理 中 证 明 过 了 . 其 二 ， 要 证 对 Az = 的 任 一 解 zo, 必 存在 一 个 
4 ,使 zo = 4-4 由 (2.2.3) 知 ， 存 在 4 的 一 个 广义 道 G 及 zo, 使 得 


zo = Gb+ (I — GA)z. 
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因 5 关 0, 故 总 存在 和 矩阵 U, 使 得 zo = UB. 例如 ， 可 取 = zo(6b)-1b'. 于 是 
zo=Gb+(I- GAUb=(G+(T- GA)U)b ES Hb, 


其 中 五 = G+ (I 一 GA)U. 易 验证 瑟 为 一 个 4-. 定理 得 证 . 

这 个 定理 是 由 Urquart 于 1969 年 提出 的 . 定理 2.2.2 的 (3) 和 定理 2.2.3 给 出 
了 相 容 线性 方程 组 解 集 的 两 种 表示 . 在 (2.2.3) 中 ，4- 是 固定 的 ，(T- 4-4)z 为 
任意 项 . 而 在 定理 2.2.3 中 ，4- 是 变 的 , 是 任意 的 . 这 两 种 表示 各 有 其 方便 之 处 ， 
在 以 后 的 讨论 中 我 们 要 经 常用 到 它们 . 

下 面 我 们 讨论 分 块 矩 阵 的 广义 逆 . 首先 研究 道 矩阵 存在 的 情况 ， 然 后 把 同样 的 
思想 和 处 理 技巧 直接 应 用 到 不 可 逆 的 情况 .就 得 到 分 块 广义 逆 的 结果 . 


定理 2.2.4 设 
次 二 An Ai2 
421 A22 
可 逆 . 若 |4n| 冯 0, 则 


-1 
aie ( An hi | ( A + A Ai2 A AsAn! An AsAl | 


421 422 一 42214214 记 4 到 
(2.2.4) 
若 |42z| 关 0, 则 
本 A 
4-1 = 4 一 4T2z412422 (2.2.5) 
-A32 A Ala AB + 4 到 4214 计 4124 于 


其 中 42z1 = 42a - 4214 记 4i2，4i2 = hi1 - A12 A422 Az1. 
证 明 若 |4ia| 关 0, 则 有 


I 0 Al 42 I -44 _ | 4na 0 
-AnAl I 421 422 0 I 0 A22.1 


此 式 证 明了 422.1 的 可 逆 性 .两 边 求 逆 甜 阵 ， 容 易 得 到 


-1 
411 Ai2 二 让 这 —Ani Ai2 大 是 “可 I 0 
421 422 0 工 0 p.m —AxnAir I 


_ ( Al + A A12A221 A A -A A12ADR! ) 


A321A21 A Az21 
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用 完全 同样 的 方法 可 以 证 明定 理 的 后 半 部 分 . 
如 果 4-1 不 存在 ， 自 然 考虑 它 的 广义 着 ， 对 此 ， 我 们 有 如 下 结果 . 
定理 2.2.5 (分 块 矩阵 的 广义 道 ) (1) 若 4 存在 ， 则 


4 A | | 42+4m4t4zi424 -AnArAn ， 攻 酚 
Azl Azz 一 42214214 记 Azz1 


(2) 若 4 到 存在 ， 则 


A 4a | [A 一 4 24az4 到 、 (2.2.8) 
Az hz2 -Az2d ha A hs + A ho An shi AD 


(3) 若 
A A 
pa 和 
Az A22 
则 
a 本 浊 4014ia42214241 一 404124224 (229) 
一 422.14214i1 Az21 
或 
= 40.2 —An 2A12 42 
ee . 11.2: 22 ， (2.2.10) 
一 42242i4ii2 422 + Az2A21An .2A1l2AD 


其 中 hz2.1 = hz2 一 Az1Ani Aiz, Ai1.2 = Al1 ~ Al2 A Az1. 

证 明 ”我 们 只 证 明 (1) 和 (3),(2) 的 证 明 与 (1) 类 似 . 

先 证 (1). 当 4i 存在 时 ， (2.2.6) 式 仍 成 立 . 于 是 根据 事实 : B = PCQ, P.@ 
可 逆 ， 则 刀 - = 8-1C-P-1( 证 明 留 作 习 题 ), 有 


411 412 人工 —An Ai2 4i 0 四 0 
421 A22 0 了 0 Azz1 -AanAm I 
_ {I -AnAw 强 I 0 

0 了 0 42a 一 4214 这 I 


$2.2 广义 道 矩 阵 a 


这 里 ， 我 们 利用 了 事实 : 


是 准 对 角 阵 


Aun 0 
0 Ah221 


的 广义 逆 . 把 上 面 三 个 矩阵 乘 开 来 ， 即 得 所 证 . 
再 证 (3). 因 4 > 0, 故 存在 矩阵 = (Bi : B2), 使 得 


为 二 ( BiB! BiB: ) 芭 ( 4 Az ) 
BB! BOB2 421 422 
由 推论 2.2.2 的 (2), 有 
A21An A = B2B1(BiB1)” Bi1B! = B2Bi = Az1, (2.2.11) 
4i4ii4ia = BiBi(BiB1) Bi1B2 = Bi1Bs = Al2. (2.2.12) 
于 是 ， 和 (2.2.6) 相 类 似 ， 有 


I 0 A A T -4n4z | | 4a 0 
-AzAn I 421 422 0 I 0 A221 
(2.2.13) 
依 此 事实 及 用 与 前 面 完 全 相同 的 方法 ， 可 得 


4 hz] {1 -4 1 0 I 0 
421 A22 0 I 0 hz21 -AzsAn I 


将 此 三 矩阵 相 乘 ， 即 得 所 证 .用 类 似 方法 可 证 第 二 种 表达 式 .， 定理 证 毕 . 

从 定理 证 明 过 程 可 以 看 出 ,我 们 所 求 到 的 广义 逆 只 是 4- 的 一 部 分 . 因此 , 定 
理 中 的 4- 表达 式 (2.2.7)~(2.2.10), 应 理解 为 右 端 是 4 的 广义 道 . 这 一 点 并 不 影响 
我 们 后 面 的 应 用 . 因为 在 线性 模型 估计 理论 中 , 我 们 所 关心 的 量 都 与 4- 的 选择 无 
关 . 

定理 的 条 件 4 或 4 到 存在 或 4 > 0 还 可 以 进一步 减弱 . 因为 , 由 .M(A12) C 
AM(41) 和 M(451) C M(411) 可 推出 4ii4ii4iz = 4iz 和 4zi4m4tz = 42, 于 
是 ， (2.2.13) 成 立 ， 因 此 ， (2.2.9) 和 (2.2.10) 也 成 立 ， 故 得 
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A Aiz 
A= 中 
( 421 422 ) 
车 KM(4ia) c M(411), M(4%1) C M(A441), 则 (2.2.9) 和 (2.2.10) 成 立 . 


2.2.2 广义 逆 A+ 


从 上 段 的 讨论 知 ， 一 般 说 来 广义 逆 4- 有 无 穷 多 个 . 在 这 无 穷 多 个 4- 中 ,有 
一 个 4 占有 特殊 的 地 位 ， 它 就 是 本 节 一 开始 提 到 的 Moore-Penrose 广义 逆 , 现在 
我 们 给 出 正式 的 定义 ， 然 后 讨论 它 的 一 些 性 质 . 

定义 2.2.2 设 4 为 任 一 矩阵 ， 若 X 满足 下 述 四 个 条 件 ， 


推论 2.2.3 ”对 矩阵 


AXA= A, XAX =X, (AX) = AX, (XA) = XA, (2.2.14) 


则 称 和 矩阵 六 为 4 的 Moore-Penrose 广义 逆 , 记 为 4+. 有 时 称 (2.2.14) 为 Penrose 
方程 . 

引 理 2.2.1( 奇 异 值 分 解 ) ” 设 矩阵 Amxn 的 秩 为 7, 记 为 zk(4) = 7, 则 存在 两 
个 正 交 方 阵 Pnxm 、 Qnxn, 使 


A- 0 
A=P ( ) @’, (2.2.15) 
0 0 


其 中 Ar = diag(A Xp) > 0i= 1,2,…,7. 好,…, 和 2 为 44 的 非 零 特 征 根 . 
证 明 因为 4'4 为 对 称 阵 ， 故 存在 正 交 方 阵 Quxnw, 至 


二 A? 0 
0 0 
py=| 
0 0 


这 说 明 B 的 列 向 量 互相 正 交 ， 且 前 > 个 列 向 量 长 度 分 别 为 和,…, 和 ,, 后 n 一 + 个 
列 向 量 为 零 向 量 ， 于是， 存在 一 正 交 方 阵 Pxm, 使 得 


A? 0 
B=P| “ 5 
0 0 


记 B= 49, 上 式 即 为 
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再 由 B= 4Q. 立 得 (2.2.15). 证 毕 . 
通常 称 Xi,……,》Xr 为 4 的 奇异 值 . 
利用 这 个 引 理 ， 可 以 构造 性 地 给 出 4+. 
定理 2.2.6 (1) 设 4 有 分 解 式 (2.2.15), 则 


2 
At=Q@ P. (2.2.16) 
0 0 


(2) 对 任何 矩阵 4,4+ 惟一 -. 

证 明 (1) 很 容易 直接 验证 ， (2.2.16) 的 右 端 满足 (2.2.14). 

(2) 设 X 和 YY 都 是 4+, 由 (2.2.14) 的 四 个 条 件 知 

X=XAX=X(AX) = XX'A' = XX(AYA) = X(AXY(AY) = (XAX)AY 
=XAY =(XA)YAY = AX'A'Y'Y = A'Y'Y =(YAYY =YAY =Y. 

这 就 证 明了 惟一 性 . 

因为 4+ 是 一 个 特殊 的 4A-, 因此 ， 它 除了 具有 4- 的 全 部 性 质 外 ， 还 有 下 列 
性 质 . 

推论 2.2.4 (1) (4+)+ = 4; 

(2) (4 = (4 

(3)T> A+A; 

(4) rk(A+) = rk(A); 

(5) 4+ = (A'A)+ A' = A'(AA')+; 

(6) (A'A)+ = A+(A')+; 

(7) 设 为 一 非 零 向 量 ， 则 a+ = ay/llall?; 

(8) 若 4 为 对 称 方 阵 ， 它 可 表 为 


这 里 P 为 正 交 阵 ， A, = diag(Xt…,》),r 二 开 (4), 则 


Arl 0 
4+= 忆 | ” 已 . 
0 0 


这 些 事实 的 证 明 都 基于 (2.2.16), 细节 留 给 读者 . 
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从 定理 2.2.2 或 2.2.3 知 ， 对 相 容 线性 方程 组 4z = 6,zo = 4+5 必 为 解 ， 下 面 
的 定理 刻画 了 这 个 解 的 性 质 . 

定理 2.2.7 ”在 相 容 线性 方程 组 4z = 6 的 解 集中 ，zo = A+6 为 长 度 最 小 者 . 

证 明 ”由 (2.2.3),Az =5 的 通 解 可 表 为 


z= Atb+(T— AtA)z. 
于 是 


jz = (Atb+(I— At+A)z)(Atb+(I— AtA)z) 
= Jzoll? +z(IT— At+A)?z+20(A+)(I — A+A)z 
= zoll? +2(1— A+A)?z > llzoll?. (2.2.17) 


因此 (41)(1 一 4+4) = (4+) 一 (4+) 4A+4 =0 和 z(1 -A+4)?z > 0 对 任意 的 z 
成 立 ， 在 (2.2.17) 中 ， 等 号 成 立 > (1 - 4+4)z =0 = z = 4+b. 证 毕 . 

上 面 我 们 所 讨论 的 广义 逆 4- 和 4+, 是 满足 (2.2.14) 第 一 条 和 全 部 四 条 的 两 
个 极端 情况 .自然 我 们 还 可 以 定义 满足 四 个 条 件 中 任 一 个 、 任 两 个 或 任 三 个 的 广义 
逆 . 由 于 这 些 广义 逆 在 线性 模型 的 研究 中 应 用 不 十 分 广泛 , 此 处 就 不 再 做 进一步 的 
讨论 了 ， 读者 可 参阅 文献 [16]. 


82.3 才 等 方 阵 


因为 短 等 方 阵 和 x? 分 布 有 很 密切 的 关系 ， 因 而 在 线性 模型 乃至 数理 统计 的 其 
它 一 些 分 支 中 , 知 等 方 阵 都 有 一 定 的 应 用 .鉴于 此 ， 我 们 在 这 一 节 专 门 讨论 逢 等 方 
阵 的 一 些 重要 性 质 . 

定义 2.3.1 车 方 阵 Anxn 满足 4? = 4, 则 称 4 为 寡 等 阵 (idempotent matrix). 

定理 2.3.1 千 等 阵 的 特征 根 只 能 为 0 或 1. 

这 个 事实 的 证 明 很 容易 ， 从 略 . 

定理 2.3.2 ”对 任意 的 矩阵 4， 

(1) 4 4,44-,T-4-4, 和 T- 44- 都 是 才 等 阵 . 特别 ，4+ 4, 44+, 了 -A+4， 
和 了 一 44+ 都 是 短 等 阵 ; 

(2) 若 4 为 对 称 寡 等 阵 ， 则 4+ = 4. 

证 明 ”从 定义 容易 验证 (1), 利用 定理 2.3.1 和 推论 2.2.4 之 (8), 立 得 (2). 

定理 2.3.3 (1) 若 Anxn 宪 等 ， 则 tr(4) = zk(4). 

(2) Anxn 宕 等 二 > rk(4) 二 rk(T 一 4) = mn. 
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证 明 (1) 设 东 (4) = ~, 则 存在 可 北方 阵 P, 8, 使 


五 0 
前 = 了 Q. 


将 P,Q 分 块 : P= (已 : 书 ), 其 中 已 为 nxr 的 矩阵 ， | EE 


rT xn 的 矩阵 ， 于 是 4 = Pi81. 另 一 方面 ， 由 A? = 4, 得 到 


人 人 人 人 


故 QiP = 大 .所 以 tr(4) = tr(PQi) =tr(QiP) = tr( 关 ) =r= zk(4).(1) 得 证 . 
(2) 必要 性 是 显然 的 ， 事 实 上 ， 由 4 的 老 等 性 知 ，Z- 4 也 宕 等 ， 利用 刚 证 过 
的 性 质 ， 有 
mtr()=tr( -4+ 朋 =trm — A)+tr(A) = rk(, - A)+ rk(A). 


反 过 来 ， 设 水 (4) = ” 则 hz = 0 有 一 * 个 线性 无 关 的 解 ， 它 们 是 对 应 于 特征 根 
零 的 n 一 7 个 线性 无 关 的 特征 向 量 . 由 zk(T - 4) = 一 > 知 ，4z = z 有 个 线性 
无 关 的 解 ， 它 们 是 对 应 于 特征 根 1 的 个 线性 无 关 的 特征 向 量 ， 因 为 这 ”个 特征 
向 量 线性 无 关 ， 于 是 4 相似 于 


即 存在 可 逆 阵 以 使 


故 42 = 4. 证 毕 . 

定理 2.3.4 ” 设 已 xn 为 对 称 寡 等 阵 , rk(P) = r, 则 存在 秩 为 r 的 4nxr, 使 
一 = 4(4'4)-14/. 

证 明 因 P 为 对 称 告 等 阵 ， 故 存在 正 交 阵 R= (Ri : Ro), 使 得 


起 及 二 型 
玉生 种 R=(R BR2) = RR = Ri(RIR)R, 
0 0 0 0 
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这 里 用 到 了 RiRi = 到- 再 令 4 = 已 ,定理 得 证 . 

现在 我 们 讨论 正 交 投 影 和 正 交 投 影 阵 ， 设 ze Rn,5 为 R, 的 一 个 线性 子 空 
间 . 对 z 作 分 解 

z=y+z, YyES, ze5L， (2.3.1) 

则 称 y 为 z 在 S 上 的 正 交 投影 . 车 PP 为 n 阶 方 阵 ,使 得 对 一 切 z € Ra,(2.3.1) 定 
义 的 y 满 足 y= Pz, 则 称 已 为 向 5 的 正 交 投影 阵 . 

我 们 知道 ， 对 R, 的 任 一 子 空间 5, 都 可 以 找到 矩阵 4nxm, 使 得 5 = AM(4). 
所 以 ， 下 面 的 定理 给 出 了 正 交 投影 阵 的 表示 . 

定理 2.3.5 ” 设 4 为 mxmm 和 矩阵 ，Pa 为 向 KM(4) 的 正 交 投影 阵 ， 则 Pa = 
A(A'A)- A'. 

证 明 记 B 为 一 矩阵 ,使 得 M(B) = M(4)+, 则 对 任 一 = < R。, 有 分 解 
z= ha+BB, 这 里 a,6 为 适当 维 数 的 列 向 量 . 依 定义 ，Paz = PaAa+P4BB = 4a， 
对 一 切 a,8 都 成 立 ， 故 正 交 投 影 阵 Pa 满足 矩阵 方程 组 


A 
(2.3.2) 
PaB=0. 


由 第 二 方程 推 得 ， M(P4) c M(B)* = M(4). 于 是 ， 存 在 矩阵 已 P4 = AU. 代入 
第 一 方程 ， 得 UV'A'4 = 4. 此 方程 组 是 相 容 的 ， 由 定理 2.2.3 ,0 = (A'4)- 4/. 于 是 


Pa=U'A’= A((A'4)-)A’ = A(A'A)-A'. 


这 里 应 用 了 推论 2.2.2 之 (1) 及 ((4'4)-) 仍 为 一 个 (4'4)-. 定理 证 毕 . 

因为 Pa = 4(4'4)-4' 与 广义 逆 选 择 无 关 ， 所 以 正 交 投影 阵 是 惟一 的 . 

定理 2.3.6 。P 为 正 交 投影 阵 > P 为 对 称 短 等 阵 . 

证 明 设 书 为 向 At(4) 的 正 交 投影 阵 ， 由 上 一 定理 ， 已 = 4(4'4)~4' = 
A(4'4)+4', 对 称 性 得 证 ， 利 用 推论 2.2.2 之 (2), 有 


P?= 4(4'4)-4 4(44)-4 = 4(44)-4 = 已 


必要 性 得 证 ， 充 分 性 即 定理 2.3.4. 证 毕 . 
定理 2.3.7 nn 阶 方 阵 已 为 正 交 投 影 阵 * 一 对 任 给 z < R，， 


lz- Pr]=inf|z-ul, veM(P). (2.3.3) 
证 明 ” 先 证 必要 性 . 任 取 we M(P),ve M(P)! , 记 y=u+v, 则 w= Py. 


Iz-ul = lz-PylP=llz-Pr+Pz—- py) 
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i 


|(z— Pz)+ P(r—y) HP 

lz—-PzlP+l Pz -y+22(T— P)P(z—Y) 
lz—Pzl +l Pz 一切 只 

lz-Pzi? (2.3.4) 


上 站 


IV 


等 号 成 立 后 > Px = Py, 即 u = Pz. 必要 性 得 证 . 
充分 性 . 若 (2.3.3) 成 立 ， 我 们 首先 证 明 


zi- P)P(z -y) =0， 对 一 切 z,y 成 立 . (2.3.5) 
用 反 证 法 .假设 存在 zo 和 yo, 使 得 
zo(I— P)P(zo -yo)=c#0, 


可 以 假定 < 0. 因为 若 c > 0, 则 取 满 足 zo -如 = -(zo -如 ) 的 wn 代替 yo, 便 化 
为 c< 0 的 情形 . 取 y 满足 zo 一 y= e(zo 一 yo) ,并 记 w= Py, 则 


4 


Hzo— Py 

lzo ~ Pzo ll +P(zo—y) ll +2z6(1 ~ P)P(zo —Y) 

lzo ~ Pzo |l? +e? | P(zo ~ yo) |l? +2ezh (I — P)P(zo ~ yo) 
lzo — Pro ll? +e? || P(zo ~— yo) | +2ec. 


zo -ul 


因 c < 0 故 取 e > 0 充分 小 ， 可 使 上 式 后 两 项 小 于 零 ， 于 是 
zo —ulP<ll zo — Pro 用 


这 与 (2.3.3) 矛盾 ， 这 就 证 明了 (2.3.4). 因 (2.3.4) 对 一 切 > 和 y 成立， 故 M(P) 与 
AM(I - 了) 正 交 . 据 此 易 推 知 ， zk(P) + rk(T 一 了 ) = n. 所 以 ， 对 任意 re Rn ,有 
分 解 式 

z= Pr+(I-P)z, Pre M(P), (1 ~ P)ze AM(P)L. 


依 定义 ， 书 为 向 M(P) 的 正 交 投影 阵 ， 定 理 证 毕 . 

这 个 定理 刻画 了 正 交 投影 阵 的 距离 最 短 性 ， 即 在 线性 子 空间 M(P) 的 所 有 向 
量 中 ， 只 有 z 的 正 交 投 影 阵 Pz 到 z 的 距离 ez - Pz | 最短， 这 个 结果 在 最 小 二 
乘 估 计 理 论 中 有 重要 应 用 . 

在 一 定 的 条 件 下 ， 正 交 投影 阵 的 和 ， 差 ， 积 仍 为 正 交 投 影 阵 ， 这 些 结果 概括 在 
如 下 三 个 定理 中 . 

定理 2.3.8 设 愉 和 已 为 两 个 正 交 投影 阵 ， 则 
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(GD P= 吕 + 书 为 正 交 投影 >PiP = PP =0; 
(3) 当 忆 民 = 忆 P=0 时 ，P = P+ 己 为 向 M(P1)@M( 己 ) 上 的 正 交 投 
影 . 
证 明 (1) 充分 性 易 证 ， 下 证 必要 性 . 假设 P 是 一 个 正 交 投影 阵 ， 根 据 定理 
2.3.6 知 P2 = P. 于 是 
PB+PP=0, {2.3.6) 


用 PP 分 别 左 乘 和 右 乘 (2.3.6) 得 到 


PP+PPP=0, {2.3.7) 


PP +PPP,=0. (2.3.8) 
把 上 两 式 相 加 ， 并 利用 (2.3.6), 得 到 
PPP=0. (2.3.9) 


再 由 (2.3.7) 和 (2.3.8), 便 得 到 PLP = PP = 0. 
(2) 我 们 只 需 证 明 
WP) = M(P1)@®@ M(P). (2.3.10) 


对 任 一 ye M(P), 存在 ze R", 使 得 y= Pz, 于 是 
y= Pr=Pz+Pr= +w, 


这 里 如 = PizE M(Ri), i=1,2, 且 从 只 P=0 可 推 知 yi yz. 定理 证 毕 . 
定理 2.3.9 ” 设 忆 和 已 为 两 个 正 交 投 影 阵 ， 则 
() 书 = 有 兄 忆 也 为 正 交 投影 阵 和 > PP = PPP; 
(2) 当 B= 己 P 时，P= 记忆 为 向 M(P1)nM(P) 上 的 正 交 投影 阵 . 
此 定理 易 证 ， 留 给 读者 作 练习 . 
定理 2.3.10 ” 设 只 和 书 为 两 个 正 交 投影 阵 ， 则 
(1) P= 只-- 忆 为 正 交 投 影 阵 二 > PP = 书局 = 已; 
(2) 当 已 = 只 一 忆 为 正 交 投影 阵 时 ， 尸 为 向 M(Pi)n M( 己 )+ 上 的 正 交 投 


此 定理 的 证 明 类 似 于 定理 2.3.8, 留 给 读者 作 练习 . 
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本 节 讨 论 实 对 称 阵 的 特征 值 的 极 值 性 质 与 几 个 重要 不 等 式 . 设 A 为 nxn 实 
对 称 阵 ， 我 们 用 和 1(4),…, 和 Xn(4) 表示 4 的 特征 值 ， 在 不 致 引起 混淆 时 ， 也 简 记 
为 1,… ,Xn. 记 p1,… ,pn 为 对 应 的 标准 止 交 化 特征 向 量 .我 们 总 假定 Xi(4) > 
…> Mn(4), 并 称 和 (4) 为 4 的 第 i 个 顺序 特征 值 . 

下 面 的 定理 刻画 了 特征 值 的 极 值 性 质 . 

定理 2.4.1 (Rayleigh-Ritz) ” 设 4 为 n xn 对称 阵 ， 则 


Az 


(1) sp = piAp1 = A, 


(Ci EAE = ph Apn = Mn. 


证 明 记 更 = (pi.…,pn), A= diag(AXi ,An). 对 任意 re R, 存在 向 量 忆 
使 rz = gt. 故 


2 党 -Dh De = 和 
这 里 w= 好 /好 >0, iwi = 1, 并 且 等 号 成 立地 wi = 1 wi=0,i> 1 
z = apl, 其 中 a 为 数 . (1) 得 证 . 

同 理 可 证 (2). 

推论 2.4.1 对 任 一 于 阶 对 称 方 阵 4 = (aij), 总 有 An < aa < A 和 1,i= 1 

推论 2.4.2 设 4 为 nxn 对称 阵 ， 则 


(1) sup 2 = ph Apen = Mr 
ei 


所 做 = phApn = hn, 


(3) sup EA = pi Ap1 = A 


he 
2 


(4) 上 Az = ph Apk = M. 
3 

定理 2.4.2 设 4 为 nxn 对称 阵 ，B 为 nxk 对 称 阵 ， 则 
i 2hz 一 Az - 

(1) i py Ee = Te = Pk+1APR+1 = Ak+1y 

(2) sup Pot SE = inf SE = ph Apnk = Mn 


人 


其 中 Bs, 鲁 (4) 分 别 表示 更 = (p1,… ,pn) 的 前 大 列 和 后 大 列 . 
证 明 (1) 记 z= gy, 则 


wi ， ， 
ea SE = oup EMS sp 
Biz=0 TT Hy=0 YY 于 (从 0)=0 WH 
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MA > inf HA _ 


还 十 1， 
Ty 0=0 Yn uto Mn 


其 中 A = diag( 和 1,…,An), H = ®B, Al = diag(A ,x+ Y = (WM Wy), 
加: (十 1) x 1, 于 是 


TAT 
i —— > M+1: 
衰 人 人 
再 由 推论 2.4.2 之 (1) 知 ， 
4: 
0, SE = hapen = At 
明 所 欲 证 . 


(2) 用 与 (1) 同样 的 记号 


zh -= iif YM inf Way 


i 
B's=0 ZIZ Hy=0 YYy HO ys)=0 YYy2 


/ 
i WAays aD WA2Y2 
H'(0 ¥)=0 Yoya mn Vy 
其 中 As = diag(An-k…… ,An)，y = (的 的 ) x: (n 一 k) x 1. 那么 


1 
z'Ar 

sup inf 一 

B Biz=0 IT 


一 An- 让 


< Mk: 


由 推论 2.4.2 之 (4) 知 


zr'Ar 


1 
i = Pn-kApnk = An—k- 
B=0 TIT Pn—kAPn n 


这 就 完成 了 定理 的 证 明 . 


下 面 的 几 个 定理 给 出 了 有 关 对 称 阵 的 特征 根 的 一 些 重要 不 等 式 . 
定理 2.4.3(Sturm 分 离 定 理 ) 设 4 为 nxn 对 称 阵 ， 记 


为 4 的 顺序 主子 式 ， 则 


Mti(Art1) < A(Ar) < M(Art1), t=1,2,.,r. 
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证 明 ” 先 证 第 一 不 等 式 ， 记 g: 为 4, 对 应 于 特征 根 Xi(4-) 的 标准 正 交 化 特征 
向 量 , i = 1,……,m 依 推论 2.4.2 之 (1), 得 


Zz'Arz YArtiy 、. YArtiy 
= = a 
A 和 i(4;) Se 二 oh igf a 7 AMiti(Ar+1), 


jb 


其 中 y: (r+1) x1,B: (r+1) xi, 这 里 应 用 了 定理 2.4.2. 
再 证 第 一 个 不 等 式 . 记 Wi, i = 1,…,r 十 1 为 hr+l 对 应 特征 根 和 (Ar+1),i = 
1 or+zl 的 标准 正 交 化 特征 向 量 ， 类 似 地 ， 有 


, , 
TArT 、. z'Arz 
7 > inf sup A 
EE B Brz=0 TT 


其 中 = ( 吻 'x *)， 昌 :rx (i 一 1). 定理 得 证 . 
定理 2.4.4( Weyl 定理 ) 设 A 和 B 皆 为 nxn 的 对 称 阵 ， 则 


A(A) + M(B) < A(A+B) SNA FA(B), i=L.n 
证 明 设 z'z = 1, 显然 有 
zf4z 十 min(z'Bz) < z(A+ B)z < x/Az + max(z'Bz), 
根据 定理 2.4.1 有 
XAi(A) + Xn(B) < A(A+B) < AN(A)+A(B). 
证 毕 . 
Weyl 定理 给 出 了 4 + B 特征 根 的 上 、 下 界 . 


定理 2.4.5(Poincare 分 离 定 理 ) ” 设 Anxn 为 对 称 阵 ， 已 为 mn x 的 列 正 交 
阵 ， 即 已 P= 到, 则 


Mn-kti(A) S A(P'AP) < A(A), i=1,.…,k. 
证 明 将 已 扩充 为 正 交 方 阵 巨 = (P :8), 记 


oo 人 | 


AP QAQ, 
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Hi 为 吾 的 大 阶 顺 序 主子 阵 、 注意 到 HE = P'AP, HH。 = PAP, 利用 sturm 定理 ， 
有 
和 Xi(4) = Xi(P'AP) > Ai(P'4P) = Xi(Bk) > Mir(Hen) > 
EM (HNP AP=N (0); 


即 Xi(4) > 和 i(P'AP) 和 Xi(P'4P) > Xn_k+i(4). 证 毕 . 

从 这 个 定理 的 证 明 过 程 可 以 看 出 ， Poincare 定理 只 不 过 是 Sturm 定理 的 一 个 
简单 应 用 ， 但 是 ， 由 于 Poincare 定理 刻画 了 和 撼 阵 积 的 特征 根 的 性 质 ， 因 此 在 应 用 
上 显得 更 重要 些 . 

定理 2.4.6(Kantorovich 不 等 式 ) ” 设 4。xn 为 正定 阵 ， 和 Xi > Xz > .….> 》n 为 
4 的 特征 根 ， 则 

vw As "SA 
(z'2)? 

证 明 ”左边 的 不 等 式 容易 从 Cauchy-Schwarz 不 等 式 ( 见 本 章 末 习题 ) 得 到 . 现 

证 右边 不 等 式 ， 首 先 


ZAz'z'ATlz 1(N+An)? 2 二 未 入 TEA 
大 二 二 .2A-! a 一 让 
(re) < zh4z.z4-z< 5 3 


其 中 xz'z =1. 设 Q 为 正 交 方 阵 , 致 4= QAQ'，A= diag( 和 1 > Xa > …> Xn). 记 
w= Qiz, 上 式 <=> 


和 + 和 An A +A! 2 2 
/AuwuwA-Iuw < 2 sn ne a 4 sa 
vwAuw A lu< 了 “(A uu (rr )*s 


其 中 ww = 1. 利用 几何 平均 小 于 算术 平均 ， 则 上 式 的 一 个 充分 条 件 为 ， 对 一 切 ~ 


和 Wk 
uv | 一 一 + 一 一 uv<uwuw 
Nn 


而 此 式 又 
吉 | 
t+ 
(人 -MO -hh) <0, FE ep 
明 所 欲 证 . 


定理 2.4.7(Wielandt) 设 4 为 nxn 正定 对 称 隆 ， 和 1>.…> 和 >0 为 4 
的 特征 值 ， 则 对 任意 一 对 正 交 向 量 z 和 y, 有 


和 一 nm 


2 
入 计 ) TAr.y Ay, (2.4.1) 


1z'4y P< ( 


且 存 在 正 交 向 量 > 和 y, 使 (2.4.1) 的 等 号 成 立 . 


82.5 偏 序 了 


证 明 ”显然 我 们 只 需 对 1 z il= byil= 1 的 正 交 向 量 证明 (2.4.1). 设 = 和 2 
为 任 一 对 标准 正 交 向 量 ， 定 义 


B= (z,y) A(z,y), 


这 里 8 是 一 个 2 x 2 正定 对 称 阵 ， 记 其 特征 值 为 yt > /pa > 0. 根据 Poincare 定 
理 , 我 们 有 


A Zp > pa > hn. (2.4.2) 
另 一 方面 
lz'Ayl? _ zr'Ar-yAy- |z'Ay|? 本 4detB 
ZAryAY YY (Ar+yAY): (eAr— YAY tr(B)?—(zAr—y AY): 
4p1p2 > Ahip2 (2.4.3) 


tm Ar yA < a+ pa 


这 里 等 号 成 立 当 且 仅 当 z'4z =y Ay, 且 z,y 为 一 对 标准 正 交 向 量 。 (2.4.3) 可 以 改 
写 为 


IzAyl 1 A 人 ;2) a (ee et 中 : 
z47 4 (+Hpa)2 Na 十 ja m/p2+1) 


因为 右 端 是 yi/pz 的 单调 函数 ， 结 合 (2.4.3), 得 
lzAyp MA/ -IN [An 
ZA yA (WE) 是 (生产 ) ， 
(2.4.1) 得 证 . 车 记 pa 和 pn 分 别 为 对 应 于 和 1 入, 的 4 的 标准 正 交 化 特征 向 量 ， 
则 容易 验证 ， 当 = = (pl + pn)/V3,y = (pi 一 pn)/V3, 等 号 成 立定 理 证 毕 . 
Wang ( 王 松 桂 ) 和 Ipli09] 把 Wielandt 不 等 式 推广 到 > 和 y 为 矩阵 的 情形 ， 并 
给 出 了 许多 统计 应 用 . 


82.5 偏 序 


设 4, B 为 两 个 nn 阶 对 称 阵 ， 若 互 - 4> 0, 即 妃 - 4 为 半 正 定 阵 ， 则 称 4 低 
于 B, 记 为 BB> 4 或 4<B. 类 似 ，4>B 表 明 4 一 B 为 正定 阵容 易 验证 ， 对 
称 阵 的 这 种 关系 满足 下 列 性 质 : 

(1) 自 反 性 : 4 > 4; 

(2) 传递 性 : 若 4> B,B>C, 则 A>C; 

(3) 若 4> B,B>4, 则 4= 有. 
这 种 关系 被 称 为 Lowner 偏 序 . 因为 并 非 任意 两 个 对 称 阵 都 有 这 种 关系 ， 所 以 称 其 
为 偏 序 . Lowner 偏 序 在 统计 中 有 广泛 应 用 . 
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定理 2.5.1( 单 调 性 ) ” 设 4,B 为 两 个 n 阶 对 称 阵 . 

(车 A4>B, 则 和 (4) > Ai(B),i= bn; 

(2) 若 4>B, 则 和 (4) > 和 (B),i= 1,.…,n. 

此 结果 可 由 Weyl 定理 直接 得 到 . 但 注意 定理 2.5.1 的 逆 定 理 未 必 成 立 . 例如 ， 
投放 | 本 下 让 证 党 昌 有 由 此 立即 可 得 如 下 推论 ; 

0 2 0 3 

推论 2.5.1 设 4>B>0, 则 

(1) tr(4) > tr(B), 

(2) | 4 |>| Bl, 

(3) rk(A) > rk(B). 

定理 2.5.2 设 4 和 B 为 两 个 n 阶 对 称 阵 ，P 为 n xk 和 矩 阵 . 

(1) 若 4>B, 则 P'4P > P'BP; 

(2) 车 tk(P)=k, A > B, 则 P'AP > P'BP. 

证 明 (1) 由 A>B 的 定义 知 对 任意 ze R。, 有 z'(4--B)z > 0, 于 是 ， 对 
任意 ze RR， 

z(P'4P- P'BP)z = (Pz)}(A- B)(Pz) >0, 

此 即 已 4P- P'BP > 0. 


(2) 设 4 > B,rk(P) = k, 则 对 任意 z 关 0, 我 人 有 Pz 关 0, 因此 对 任意 
ze Rr(z#0), 有 


z(P'4P- P'BP)z = (Pz)'(4- B)(Pz) > 0， 


故 P'hAP-P'BP>0. 
定理 2.5.3 设 A4>B>0, 则 


M(B)C M(A). 


证 明 首先 从 定义 知 : 4 > B < 对 任意 z, z'hz > z'Bz. 若 ze M(4)+, 则 
zhz = 0, 进而 有 z'Bz = 0, 也 就 是 = < M(B)+, 这 就 证 明了 M(4)+ c M(B)+， 
因此 M(B) c AM(4). 证 毕 . 

现在 我 们 引进 半 正 定 方 阵 的 平方 根 阵 . 若 4 > 0, 其 所 有 特征 根 Xi > 0, 则 算术 
平方 根 Ai/” 都 是 实数 . 更 为 Xi 对 应 的 n 个 标准 正 交 化 特征 向 量 为 列 组 成 的 矩阵 ， 
记 

Al1/2 一 (AM2 .AMa/3). 


82.5 偏 序 入 


定义 
4112 = BAV2®’, 


称 A1/? 为 4 的 平方 根 阵 ， 因 此 
(4112)2 = $A!/?E'BA!/?g’ = A’ = A. 
显然 ， 472 之 0. 


如 果 4 > 0, 则 不 难 证 明 4W? > 0. 因此 ， 我 们 可 以 求 41/? 的 逆 撼 阵 ， 记 之 为 
4-12, 即 4-12 = (41/?)-1. 利用 更 为 正 交 阵 ， 可 以 推出 


A = BA 2 
其 中 
A-V2 = diag(AT ,Mr 1/?). 


定理 2.5.4 设 4>0,B> 0, 则 下 面 的 命题 等 价 . 

(4> 有 

(2) M(B) S M(4), 对 任意 的 >e M(A4),z'(4 - B)z > 0; 

(3) M(B) ES M(4), 和 (BA-) < 1, 这 里 入 (BA-) 与 4- 的 选择 无 关 . 
证 明 ”由 定理 2.5.3, (1) 一 >(2), 下 面 证 (2) 一 (1). 设 >e R，, 且 


r=y+z, yEM(A),zE M(A)-, 
则 4z=0, 故 Bz=0. 由 于 ye M(4), 我 们 有 
zr'(A- B)z=y(4- B)y>0, 


即 4 > B, 因此 (2) <=> (1). 下 面 我 们 证 (1) < (3)- 
根据 定理 2.5.2, 2.5.3, 我 们 不 难 证 明 


4> 昌 全 (4+)72(4- B)(At)/? > 0，NM(4) S M(B). 


Mi = (4+)1M24(4+)12， 

Ma2 = (A+)1/2B(A+)/2. 
注意 到 Mi = ME = MI,M(M1) = M(4), 因此 Mi 为 向 At(4) 上 的 正 交 投影 阵 . 
由 于 (4+)1/244+ = (A+)!/2, 因此 Mi 与 Ma 可 交换 ， 即 Mi M2 = M2Mi = M2. 
于 是 Mi 和 M2 有 相同 的 正 交 特征 向 量 p1,… ,pn. 不 失 一 般 性 ， 设 pl，……,9r 为 
AM(4) 的 一 组 标准 正 交 基 , 且 Xi > 和 2 > … > 》 是 Ma 对 应 的 特征 根 , 注意 到 M2 
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与 BA- 有 相同 的 特征 值 ， 且 由 于 M(B) E M(4),B4- 的 特征 值 与 4- 的 选择 无 
关 , 因此 Na,…,》 也 为 4- 的 特征 值 . 记 $1 = (91,… ,pr),A = diag( 和 1,…, A), 
故 
Mi -M2=9(Ir -A >0<>A 1, 
因此 证 明了 (1) <==> (3). 
推论 2.5.2 设 4>0,B>0, 则 
(1) 若 rk(4) = rk(B), 则 4>B 当 上 且 仅 当 B+ > 4+; 
(2) 车 B>0, 则 4>B 当 生 仅 当 B-!> 4-!;4>B 当 生 仅 当 B-! > 4-1. 
证 明 ”从 定理 2.5.4 推 得 
A>B<=> M(B)C M(A),N(BA+) < 1, 
B+ > 4+ «=> M(4+) GE M(B+),N(BA+) <1. 
从 号 (4) = zk(B), 得 M(B) = M(4)，AM(4+) = M(B+). 由 于 M(4) = M(A+)， 
M(B) = M(B+), 故 (1) 得 证 . (2) 可 由 (1) 直接 得 到 ， 证 毕 . 
对 推论 2.5.2 进一步 推广 到 其 它 广义 逆 的 情况 ， 读 者 可 参见 文献 [116]. 
下 面 我 们 考虑 4 > B 与 42 > B? 的 关系 . 
引 理 2.5.1 设 4 为 ”xm 实 方 阵 ， Xi(4)， cx(4) 分 别 为 它 的 最 大 特征 根 和 
最 大 奇异 值 ， 则 | Na(4) |< o1(4). 
证 明 设 z 为 4 的 对 立 于 入 (4) 的 单位 特征 向 量 ， 则 


(Ai(4)2 = zh4'hz < 和 (44) = 02(A). 


故 引 理 得 证 . 
定理 2.5.5 ” 设 4, B 为 两 个 半 正 定 阵 ， 则 
(1) 42 > B2 一 4> 了 Bi; 
(2) 若 4B = B4, 则 4> 巨 一 A* > Bt > 0, 大 为 任意 正 整数 . 
证 明 (1) 应 用 定理 2.5.4 知 


42 > B? > M(B?) < M(A®), Ai(B2(42)+) < 工 


由 于 M(B?) = M(B), AM(42) = M(A), Ai(B2(42)+) = A(B(A2)+B) = (ci(B4+))2， 
注意 到 A>0,B>0, 故 a(BA+) >0. 因此 M(B) Cc M(4),o1(Bh+) < 1 依 引 理 
2.5.1, 有 

A(BA+) < oa(B4+). 


由 定理 2.5.4, 4 > B. 


82.6 Kronecker 乘积 与 向 量化 运算 “41. 


(2) 因为 4B = B4, 故 存在 正 交 阵 @, 使 得 4,B 同时 对 角 化 ， 即 
A=QAQ, 和 = diag0n MA) N20,i= Ln 


B= QAQ', A= diag(o1,..…,0n),01 > 0,1= 1,.…,n. 
据 此 容易 证 明 A+B = BA+=QA+AQ’>0, (4+)+B+ = B+(A+)+=Q[(A+)+A+]Q’ 
>0, 故 
A=((4+)+B*) = D(AtB) <1, 
M(4*) = M(A), M(B*)M(A), 


因此 有 A* > B*. 证 毕 . 

定理 2.5.5 中 ， 条 件 4B = BA 是 必要 条 件 ， 总 的 来 说 ， 4 > B 并 不 一 定 有 
42 > B? 成 立 . 

关于 偏 序 的 更 多 性 质 和 应 用 ， 读 者 可 参阅 文献 [50]. 


8$2.6”Kronecker 乘积 与 向 量化 运算 


本 节 我 们 要 研究 矩阵 的 两 种 特殊 运算 + Kronecker 乘积 与 向 量化 运算 ,它们 在 
线性 模型 ， 多 元 统计 分 析 等 分 支 的 参数 估计 理论 中 有 特别 重要 的 应 用 . 

定义 2.6.1 设 4= (aij) 和 B= (bij) 分 别 为 mxmpxd 的 矩阵 ， 定 义 矩 
阵 C = (aijB). 这 是 一 个 mp x ng 的 矩阵 ， 称 为 4 和 B 的 Kronecker 乘积 ， 记 为 
C=A@B, 即 


auB a1w2B :.. amnB 
pp aaB a22B :1:: a2nB 
amiB am2B ::: amnB 
这 种 乘积 具有 下 列 性 质 : 


(084=A8@0=0, 

(2) (41+A2)®B=(A8B)+(A28B), A (Bi+B,) = (48 B1)+ (48 B2), 
(3) (aA) ® (8B) = a8(A4 ® B), 

(4) (41® B1)(42 ® B2) = (4142) @ (B1B;), 

(5) (48 B)'= A'®B', 

(6) (4@ B)- = 4- @ B-, 和 以 前 一 样 ， 应 理解 为 4-@B- 为 A4@B 的 广 
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义 逆 ， 但 不 必 是 全 部 广义 逆 . 特别 (4@ B)+ = 4+ @ B+. 当 4, 互 都 可 道 时 ， 有 
Ee 

定理 2.6.1 设 4, B 分 别 为 nxn,mxm 的 方 阵 ， 和 和)… An 和 jijm 
分 别 为 4,B 的 特征 值 ， 则 

(DX 和 ippi=D…,n,j= 1,…,m 为 4@B 的 特征 值 , 上 且 | 48®B |=| 4 1"| Bl|"; 

(2) tr(A® B) = tr(A)tr(B); 

(3) rk(A ® B) = rk(A)rk(B); 

(0 车 4>0B>0 则 4@B>0. 

证 明 (1) 记 4,B 的 Jordan 标准 形 分 别 为 


和 1 Hl 
0 A * 0 * 
六 纪 2 , Ns AH2 
0 0 和 An 0 0 Hm 


依 Jordan 分 解 , 存在 可 逆 阵 一 和 Q, 使 得 4 = PAP-1,B = QAQ-L 利用 Kronecker 
乘积 的 性 质 ， 得 


48@88=(PAP-)@(QAO)=(Pe@QiAe@AIPeG)- 


即 4@ B 相似 于 上 三 角 阵 A@A, 后 者 的 对 角 元 为 pj, i = rn 了 = 
所 以 ， 这 些 和 i,pi 为 4@ 的 全 部 特征 根 ， 又 


14@BI=|A@Al=TIIIMw= (1 (人 =|AI"|Bh. 
i=1 j=1 


i=1j=1 
证 毕 . 
由 (1) 立 得 (2) 和 (4), (3) 可 由 秩 的 定义 直接 导出 . 
定义 2.6.2 ” 设 Amxn = (a1,02,…,an), 定义 mn x 1 的 向 量 


这 是 把 矩阵 4 按 列 向 量 依次 排 成 的 向 量 ， 往 往 称 这 个 程序 为 矩阵 的 向 量化 . 
向 量化 运算 具有 下 列 性 质 : 


82.7 息 阵 微 商 a 


(1) Vec(A + B) = Vec(A) + Vec(B); 
(2) Vec(a4) = aVec(4), 这 里 a 为 数 ; 

(3) tr(AB) = (Vec(A'))’Vec(B); 

(4) tr(A) = tr(A1) = tr(IA) = (Vec(In))'Vec(A); 

(5) 设 a 和 5 分 别 为 nx1,mx1 向 量 , 则 Vec(ab”) =b®@a; 
(6) Vec(ABC) = (C’ ® A)Vec(B); 

(7) 设 Xmxn = (Z1,… ,zn) 为 随机 矩阵， 且 


Cov(zi7;) = E(zi — Ezi)(zi — Eri) = vi 
记 V = (vi)nxn, 则 
Cov(Vec(X)) = 了 @z， 
Cov(Vec(X'))= 2 @V, 
Cov(Vec(TX)) =V ®@ (TET'), 


这 里 了 为 非 随 机 矩阵 . 
我 们 只 证 明 (6), 其 余 留 作 练 习 . 
设 Cmxn = (ey) = (cl…,cn),B = (b1,…,bm), 依 定义 


cuA ci4 … cmA bl 
(Ce A)Vec(B) = cl24 c22A 1:: cm2h b2 
cin4 conA 1:. cmn4 Bis 
AEcnby 4Ba 
“oa = 人 = Vec(4BC). 
i ABen 
明 所 欲 证 ， 
$2.7 甜 阵 微 商 


在 统计 学 中 ， 为 了 获得 参数 的 极 大 似 然 估 计 ， 我 们 常常 需要 求 似 然 函数 的 极 
值 ,这 就 要 用 到 和 矩阵 微 商 .本 质 上 讲 ， 和 矩阵 微 商 就 是 一 般 多 元 函数 的 微 商 .因此 ， 
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这 里 并 不 需要 引进 任何 新 概念 . 但 是 ,在 矩阵 微 商 中 , 特别 注重 把 自 变量 和 微 商 结 
果 用 简洁 的 矩阵 形式 表示 出 来 , 于是， 有 一 些 独特 的 运算 规律 . 本 节 讨论 一 些 常用 
结果 ， 更 多 内 容 读者 可 以 参阅 文献 [82]. 

假设 XX 为 nxm 和 矩阵 ，y = f(X) 为 XX 的 一 个 实 值 函 数 ， 甜 阵 


A 
Or Or Orim 
号 i| 总 起 外 
dx T21 T22 Tom 
A) 
Brznl Oznz Oznm / nxm 
称 为 y 对 X 的 微 商 . 


没有 特殊 声明 ， 以 下 都 假定 矩阵 X 中 的 mn 个 变量 zij,i = 1,2,…,n,j = 
1,…,m 都 是 独立 自 变量 . 

例 2.7.1 设 a,z 均 为 nx1 向 量 ，y=a'z, 则 Ee =@, 

例 2.7.2 设 hnxn 对 称 ，znxi， = z'4z, 则 京 = 24z. 

例 2.7.3 。 记 和 矩 阵 Xmxm 的 元 素 zi; 的 代数 余子 式 为 X;;, 则 

axX1 
ox 

结果 容易 从 | 六 |= 志 产 ; zyXi 和 Xij 中 不 包含 ri 导出 . 

定理 2.7.1 设 了 和 分 别 为 mmxmpxq 和 矩阵 ，Y 的 每 个 元 素 yi 是 XX 元 
素 的 函数 ， 又 4 = x(Y), 则 


践 - 允 (站 ), 2 


其 中 ( 铬 );; 表示 矩阵 侣 的 (i,j) 元 ，(Y)s 表示 矩阵 Y 的 (i 四 元 yiy: 
失信 的 家 


-区 Ou yy 三 (名 )， (YF)s 
pe By zu FY) ,Bru 


= (Xi)mxm =| X | (XD) 


得 到 . 

例 274 听 =5;(W), Be = Dy) = or 
2 其 中 Yi 表示 矩阵 了 的 元 素 内 的 代数 余子 式 ， (Yi1) 表示 由 这 些 代数 余子 
式 组 成 的 矩阵 ， 这 里 利用 了 例 2.7.3. 


例 275 = 击 听 =P 了 s0D; 
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我 们 用 Eij(m x n) 表示 (i,j) 元 为 1, 其 余 元 素 全 为 零 的 矩阵 ， 在 不 臻 引起 混 
消 的 情况 下 ， 常 常 把 阶 数 m x n 略 去 ， 利 用 这 个 记号 ， 则 有 


5 ( 莒 )- Bx (2.7.1) 


订 


例 2.7.6 2X2 =| AXB| A'((AXB)-1)'B'. 
证 明 记 Y = 4XB, 利用 例 2.7.4, 有 


214X81. = 号 序 1- vs -| AXB| D(AXB)- BD. 
可 
本 (AXB), (AXB 
ps (2 忆 ) = (aixby) = A'EiB', 

于 是 

a 各 | =| 4XB1》y ((AXB)-)';. A'Ei;B’ 

i 
=| AXB| 4[ 半 (4xXB)-05Bi] B'=| AXB| A'((AXB)-!)'B'. 
订 

最 后 一 式 利用 了 


SsB = DD = 4. 


例 2.7.7 N= A((AXB)-1)B'. 

这 个 事实 容易 从 例 2.7.5 和 例 2.7.6 推出 . 

定理 2.7.2( 转 换 定理 ) 设 闵 和 Y 分 别 为 nxm,pxg 和 矩阵 ，4, B,C,D 分 别 
为 px m,n x gq,p x n,m xg 和 矩阵 (可 以 是 XX 的 函数 ), 则 下 列 两 条 是 等 价 的 

(D) B= AB(mxn)B+CE!(mxn)D, i=l,m, j= ln; 

(2) 六 A'Bi(p x q)B'+ DEl(px gc, i=1,.,p, j=1,...,9 
这 里 


Ozu Oz2 Ozin 
8 Ot 
Sen, Big dai 
8Z HH Ht 
= . gy (2.7.2) 
Ozm! Ozm2 Ozmn 


mxn 
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Zn = (zu(D), 它 是 逢 阵 Z = (2()) 对 自 变量 :的 绑 商 . 
证 明 记 = (0,…,0,1,0,…,0), 即 e 是 第 ; 个 元 素 为 1 其 人 元素 全 为 夫 
的 向 量 . 则 Eij = eiey- 
首先 注意 到 
eh(ABjB + CE!D)e! = ehAeie) Be + eCeje!Del 
= elAexrelBe; + eiDerel Ce; 
= ei(AerelB + DerekC)e; 
= el(A'EuB' + DEC)e;, 


著 (1) 成立， 则 
( 芝 )， = el(AEyB+CE;jD)e = ei(A'EnB' + DEwC)e;. 
ne 
但 是 ， 由 (2.7.2), 有 
(的 ,的 -的 
Bro) ™ (drs ax J 
于 是 


A ee 
(各 ) 一 (4 BtB' + DEC)ej， 对 一 切记 


此 即 (2), 同 法 可 从 (2) 二 >(1). 证 毕 . 
推论 2.7.1 设 X,Y 分 别 为 mxmupx9g 矩 阵 ，4k, Bk,Ck, Di 分 别 为 p xm， 
nx gq,p x mm xg 答 阵 (可 以 是 X 的 函数 ), 则 下 列 两 条 是 等 价 的 . 
(1) 2 = DArBi(m x n)Be t+ DCiBl(m x nD i= lm, j= 
1 ,Nn; 
(2) BW = EABis(px 9)BL+ DDB (pxg)C, i=1,p, j= ,0. 
证 明 与 定理 2.7.2 相 类 似 . 
转换 定理 是 求 矩 阵 微 商 的 一 个 重要 工具 ， 从 定理 2.7.1 我 们 看 到 ， 为 求 器 
要 求 强直 ,但 在 很 多 情况 下 ， 这 是 困难 的 .转换 定理 给 出 了 利用 剖 臣 s 
途径 ， 前 者 往往 是 比较 容易 的 . 
例 2.7.8 


| = 24X(X'AX)-!， 其 中 4 对 称 . 


证 明 ” 依 定理 2.7.1， ee 得 


2 - Dr HTX AX | (XA4X) 7 SO 
= Pa) 2 (2.7.3) 
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因为 
O(X'AX) OX’ 六 四 4 
Bop CA Be ElAX + XAE;;, (2.7.4) 
由 转换 定理 ， 应 得 
一 4XE + AX Ei;, 
代入 (2.7.3), 得 到 
Oln|X'AX | a a 
x = DX AX)- (AXE + AXE;) 
后 
= 4X[ 并 (X40705 配 + 并 (CC420-05B] 
条 | 
= 2AX(X'AX)-!. 
例 2.7.9 
Otr(XAX') _ 
ax — =X(A+A'). 
证 明 


2 Btr(X4X/ O(XAX)i 
la 


与 (2.7.4) 同样 的 方法 可 推 得 


Q(XAX') 
Bz = ByAX' + XAB,. 
由 转化 定理 ， 有 SXAL') 
AX')ij rp 
A = EjXA'+ EXA, 
代入 (2.7.5) 得 
8 5 
0 =D (EaXA'+ EXA) = X(A+A). 
证 毕 . 
用 完全 同样 的 方法 可 以 证 明 以 下 结果 . 
例 2.7.10 Bet 
| 四 Otr(AX) _ 
5X “二 4B， 特 别 二 
例 2.7.11 
A AXB+ AXB'. 


ox 
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上 面 的 讨论 都 是 假定 XX 的 分 量 是 独立 自 变量 . 然而 ， 有 时 会 碰 到 X 的 分 量 不 
独立 的 情况 .其 中 较 重要 的 是 , X 为 对 称 阵 ， 这 时 ri = zji. 对 这 种 情况 ， 矩 阵 微 
商 公 式 略 显 复杂 . 

以 下 记 diag(4) = diag(an1,…- ,ann). 

例 2.7.12 设 X 为 mxapn 对 称 阵 ， 则 

本 X| 


=| X|(2X7! — diag(X™)). 


证 明 ei 行 展 开 ， 得 


1Xl= Da 
于 是 
但 = Xn, 
站 = Xten + + Bm [eX + tamXin]. (2.7.6) 


车 用 Xij,nt 表示 zi; 的 余子 式 中 (k,l) 元 的 代数 余子 式 ， 将 X1j 按 第 一 行 展 开 ， 得 
X1j = TL21X1j21 + T22 X13,22 十 … 十 21-1X1 2j—1 
+22j+1 Xj, 2j+1 + + Zan Xlj2n, 了 一 2 7 


因为 Xij2k,j = 2,…,n, 上 二 1，…,n 都 与 zz1 无 关 ， 所 以 


DruxXy = Z21 Dry Xa + (与 zzl 无 关 的 项 ). 


i=2 j=2 


代入 (2.7.6), 我 们 得 到 


Fab 
= X12 + DeuXsa = 2X12 
同 理 
HR, Xi 
Wy Bri 
利用 这 个 结果 和 例 2.7.5, 立 得 
例 2.7.13 设 X 为 对 称 阵 ， 则 
Gal sar agte 


ox 
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例 2.7.14 设 X 为 对 称 阵 ， 则 
Btr(AX) 
BX 


证 明 ” 因 对 任 一 矩阵 4, 总 有 4 = Dij 0ijBi, 所 以 
Btr(AX) Btr(AX) _ /8AX 
= 于 可 > ( ) 


= A+A'— diag(A). 


0X Ori 
从 和 =X', 有 
OAX Qii, 1 一 小 
tr 
0 | Qij + Qjiy i 
代入 上 式 , 得 
0) = DB + D(a +aj)Bi = A+A' — diag(A). 


i 


我 们 把 上 面 求 到 的 一 些微 商 公式 列 成 下 表 


一 些 矩阵 微 商 公式 表 
y= f(X) 发 
a'z Q 
z'Ar 24z 
| an 
1X1(2X-! 一 diag(X~!)) (XX 对 称 ) 
1AXB| |AXB| A'((AXB) ')'B’ 
AxB| | A(AXB))B 
In| X’'AX | 2AX(X'AX)-! (4 对 称 ) 
tr(XAX') X(A+A') 
tr(AXB) A'B' 
tr(X'AXB) AXB+ AXB’ 
In|X| 2X-1 一 diag(X-1) (X 对 称 ) 
tr(AX) A+A'— diag(A) (X 对 称 ) 
例 2.7.15 


Es 名 | A |= (A- 1 » 


.50 - 
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其 中 A(t) 为 矩阵 ， 上 为 标量 . 
1914(0)| 


A | = 4 


ot 


| = 1 oe 一 55 1 41 


80|40) 12 
二 站 


Das 


1 Ss i 
2 po | 


Ai a, a Oa 
-5 ed j Oa a 


= (4 名 =tr(47! 


其 中 4A-! = (a5). 
例 2.7.16 
324- _ 
ot 
证 明 由 于 A(t)4-1(t) = 7, 故 有 


04(t) 
BE 
因此 


54 _ 
ot 


最 后 我 们 简要 提 一 下 矩阵 对 矩阵 的 微 商 . 


嘻 ). 


4 人 的 一 一 


AT1(t) + A(t) 


4 的 一 


2 1 的 4 


D4-1() 
ot 


2 0) i 


(2.7.7) 


AT1(t). 


=0. 


3). 


设 Y 入 分 别 为 mxn,pxg 和 矩阵 ， 且 Y 的 元 素 yij 为 X 的 函数 . 记 


Ou yn Oy 
Oru Ori2 Orpg 
Bu Oy2 Oyi2 
Bar Drill 8zl2 Orpg 
5X 
Oymn Bymn Oymn 
bz Oriz Orpg 
称 为 Y 对 六 的 微 商 。 容易 看 到 
or 让 oarY \’ oy 
OX (起 Or12) ,ve( 让 -) ) 


它 把 求 器 转化 为 求 训 :, 在 一 些 情况 下 ， 这 会 带 来 不 少 方便 . 


例 2.7.17 设 yY= 4xB, 则 号 48 四 


习题 二 


ss 


证 明 因为 高 = 4BijB, 于 是 


Bz 


vec( 起 ) = Vec(B'E,A') = (A® B')Vec(Eji), 
所 以 
ON (48 B)Vec(B1),..,(A® BVec(Brs) = A@ B'. 
证 毕 . 


车 YX, 4,B 分 别 为 nx m,n x m,n xn,m xm 矩阵， 则 变换 了 = 4X 的 


Jacobi 行列 式 为 pe 
1ax ("A488 ||IA4mBP. 


习题 二 


2.1 设 4+ 为 满足 A'A+ = 0 且 具 有 最 大 秩 的 矩阵 ， 证 明 ， 

(DT- (4)-4' 是 一 个 4+, 这 里 4- 表示 广义 逆 ; 

(2) AM(4L) = M(A)+. 

2.2 (1) 设 rk(4B)=rk(4), 旭 X14B = X24B < X14 = XsA. 
(2) 证明 4BB' = CBB' > 4B = CB. 

2.3 设 St，S2 为 R, 的 两 个 子 空间 . 

(1) 证 明 SC 52 < 一 SL D 5+， 

(2) 设 5; = M(A4s), S51 C 52, rk(A1) = rk(A2), 则 Si = 52. 


(2.7.8) 


2.4 车 矩 阵 4 > 0, 矩阵 BB 为 对 称 矩阵 ， 证 明 B > BA+B <=> 入 (BA+) < 1,B>0. 
2.5 证明 :对 任意 矩阵 Anxn, Xnxp, rk(X) =p, 车 M(X)C M(A), 则 X'AX > 0. 


2.6 证明 Cauchy-Schwarz 不 等 式 ， 

(D (z < sry'y; 

(2) 车 A4>0, 则 (z'y)? < z'Az:y A ly; 

(3) 若 4> 0, 则 (z'4y)2<z'4z.y4y 

2.7 证 明 (Minkowski 不 等 式 ): 若 和 矩阵 A，B 皆 为 mxm 的 正定 阵 ， 则 


14+ BI/" > 4 十 Bl . 


4 Aiz 


2.8 (1) 证 明 (Fischer 不 等 式 ): 假设 4 = 
Azl 422 


(4| < lall4zal . 


| > 0 ,其 中 4il 是 方 阵 ， 则 
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(2) 对 正定 阵 4, 有 如 上 分 解 ， 其 中 A1l 是 方 阵 ， 记 


党 
| | | mp 
Az 422 Bo B22 


证 明 ， Bu > 4m . 


Ps 


2.9 设 忆 为 对 称 里 等 阵 ，Q@>0,1-P-Q>0, 则 PQ=QP=0. 
2.10 证 明 (4 -BC)'(4 一 BC) > 4'(1 -Ps)4, 并 且 等 号 成 立 4=> BC = Ps 4 ,这 里 


为 向 M(B) 的 正 交 投影 隆 . 
2.11 (1) 设 4 可逆 ，z,y 为 列 向 量 ， 则 

i 

Ut A 


(2) 设 zeAt(4),yeAt(4), 当 y 4-z 关 -1 时 ， 
-_ A-z:yA- 
l+yA-z 


是 4+ zy 的 一 个 广义 逆 . 


2.12 ”假设 下 列 相应 的 矩阵 可 逆 ， 证 明 ; 

(1) (44+B'CB) "=A!'FA-!B'(C-!+BA-!B')-1BA-!; 
(2) (I+ AB)-'A = A(T+ BA)-!; 

(3) (4-1— B-!1)-!1= A+A(B- A)-14; 

(4) 假设 rk(4) = 1, 则 


1 


CHA 


2.13 若 Ai>0,i=1,2, lz| > 14i|, 则 tr(4T142) > m, 这 里 mm 为 Ai 的 阶 数 . 

2.14 设 A 为 mxn 阵 ，P,Q 分 别 m xm, nxn 可 道 阵 ， 证 明 ， 

(DB =(P49) =Q 4-P-1i 

(2) 举例 说 明 ， B+ = (PAQ)+ = 9 一 4+P-: 不 真 ， 并 证 明 当 P,Q@ 为 正定 阵 时， 命题 成 


2.15 设 hexn >0，Bnxm 8=1~BB+, 证 明 (QAQ)+Ps =0. 

2.16 (1) B~A7 是 (4B) <=> 4A- ABB- 为 等 等 阵 . 

(2) (4B)+ = B+4+ 人 > 4+4BB 和 A ABB+ 对 称 . 

(3) 设 Amxr, rk(4)=7. Brxm, zk(B) =7, 则 (AB)+ = B+A+. 

2.17 车 X 满足 Penrose 方程 ( 即 (2.18)) 中 (1) 和 (2), 则 称 久 为 4 的 自 反 广义 道 ， 记 


为 40.32). 设 人 有 分 解 


习题 二 “0 


其 中 P,Q 为 可 逆 阵 ，r = rk(4), 则 


402 = @-! P-L 
C CB 


这 里 B,C 为 适当 阶 数 的 任意 阵 . 

2.18 车 X 满足 Penrose 方程 ( 即 (2.18)) 中 (1) 和 (3), 则 称 X 为 4 的 最 小 二 乘 广义 
道 ， 记 为 40 呈 . 

(1) 证 明 ， 4A4'3) = A+P + (T- 4+4)U，U 任意 . 

(2) 对 任意 方程 组 4z = b( 可 以 不 相 容 ), 若 zo 使 

lAzo ~ bl = infllaz 一 外 

则 称 re 为 该 方程 的 最 小 二 乘 解 ， 证 明 ro = Gb 为 最 小 二 乘 解 > G 为 40.3). 

2.19 若 X 满足 Penrose 方程 ( 即 (2.18)) 中 (1) 和 (4), 则 称 X 为 A 的 最 小 范 数 广义 
递 ， 记 为 404 人 4. 

(U 证 明 ， 409 = A+P, 十 (I 一 A+A)U,U 任意 . 

(2) 设 4z = 为 相 容 线性 方程 组 ，zo = A-b 为 长 度 最 小 的 解 二 > A 为 40 

2.20 证 明定 理 2.3.8 和 定理 2.3.9. 

2.21 设 两 个 列 满 秩 矩 阵 4pxs，Bpx(tp-a), 满足 A'B = 0, 证 明 对 任意 的 正定 阵 S, 有 

3 一 5S-14(4'5-14)-14'S-1 = B(B'SB)-1B' . 
2.22 设 矩 阵 4 > 0，Xnxp, N = 了 一 Px, 证 明 
X(X'ATIX)-X'=A- AN(NAN)-NA. 
2.23 假设 M(4) n M(B) = {0},， M(4) @ M(B) = RR,, 证 明 : 
Pa BC = M(C) C M(A). 

2.24 假设 PL，P 皆 为 mn xm 的 正 交 投影 阵 ， 证 明 ， 

(人 -1<NP-B)SY, i=1,2,,n; 

(2) 0 < NPP) < 1， i=1,2,,n; 

(3) A(PiP) < 1 = M(P) NM(P) = {0}; 

(4) tr (PB) < rk(PiP). 

2.25 设 4, 甩 此 为 mnxnm 的 矩阵 ，rk(B) <k&, 则 


AMA- BENHAM i=bn, 


这 里 约定 Xi+k(4) = 二 0, 对 i 十 kk>n. 
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2.26 设 4 >0, 证 明 : 


(1) max tr(X’'AX)-!= 
天 一 下 


0) ,nD, tr(X'4X)- = 5 A (A). 


i=1 


2.27 假设 4 是 n 阶 对 称 矩 阵 ， ae Rn 是 一 已 知 向 量 ，d 是 一 已 知 实数 ， 记 


证 明 
A(M) > Xi(4) > Xz(M) > Xz(4) > … > MA) > Xw(M) > Xn(4) > Ann(M). 
2.28 证明 下 列 结果 : 
(1) tr(ABC) = (Vec(A"))'(I ® B)Vec(C)， 
(2) tr(4X'BXC) = (Vec(X))'(A'C’' ® B)Vec(X) . 
2.29 证 明 下 列 事实 ， 


上 tr(X'AX) _ (A+ A)X, 


= 
Otr(X'AX') 
一 5 
Otr(X'AX)? 
Wax 


-1 
2.30 证 明 3 =X-1@X"!. 


= AX'+X'A, 


= 4AXX’AX . 


第 三 章 多 元 正 态 分 布 


多 元 正 态 分 布 是 数理 统计 学 中 最 常用 的 分 布 之 一 ， 它 具有 许多 非常 重要 而 优 
美的 理论 性 质 ， 从 而 为 线性 模型 、 多 元 统计 分 析 以 及 很 多 统计 分 支 的 统计 推断 葛 定 
了 坚实 的 基础 . 本 章 的 目的 是 系统 讨论 多 元 正 态 分 布 以 及 它 的 二 次 型 、 线 性 型 的 概 
率 性 质 . 


83.1 均值 向 量 与 协 方差 阵 


在 讨论 多 元 正 态 分 布 之 前 ， 我 们 先 考虑 一 般 随机 向 量 . 
设 X = (XXXn) 为 nx1 随机 向 量 ， 称 
E(X) = (EX,.…., EX») 
为 XX 的 均值 . 
定理 3.1.1 设 4 为 mxn 非 随机 和 矩阵， 鲜 和 456 分别 为 nx1 和 mx1 随机 
向 量 , 记 Y = AX+b, 则 
E(Y) = AE(X) + E(b). 
证 明 是 容易 的 ， 留 给 读者 作 练习 . 
n 维 随机 向 量 X 的 协 方差 阵 定义 为 
Cov(X) = E[((X ~ EX)(X — EX)'. 
这 是 一 个 nxn 对 称 阵 ， 它 的 (i,j) 元 为 Cov(Xi,X;) = E[(X; - EXi)(Xj - EX;)]， 
特别 当 i= j 时 ， 就 是 Xi; 的 方差 Var(Xi). 所 以 X 的 协 方差 阵 的 对 角 元 为 X 的 分 
基 的 方差 ， 而 非 对 角 元 为 相应 分 量 的 协 方差 . 车 对 菜 个 i 和 j, Cov(Xi,X;) = 0, 则 
称 Xi 与 X; 是 不 相关 的 . 
易 见 trCov(X) = 学 1 Var(X;), 这 里 tr4 表示 方 阵 4 的 迹 , 即 对 角 元 素 之 和 . 
定理 3.1.2 设 关 为 nx1 随机 向 量 , 则 它 的 协 方差 阵 必 为 半 正 定 的 对 称 阵 . 
证 明 ”对 称 性 是 显然 的 ， 下 面 证 明 它 是 半 正 定 的 . 事实 上 ， 对 任意 mx 1 非 随 
机 向 量 , 考虑 随机 变量 Y = c'X 的 方差 . 根据 定义 ， 我 们 有 
Var(Y) = Var(eX)= El(eX — E(cX))’] 
= El(eX — E(cX))(eX ~ E(c'X))] 
= El((X — EX)(X — EX)]e 
= eCov(X)e. 
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因为 左 端 总 是 非 负 的 ， 于 是 对 一 切 c, 右 端 也 是 非 负 的 . 根据 定义 ， 这 说 明和 矩阵 
Cov(X) 是 半 正 定 的 .定理 证 毕 . 

定理 3.1.3 设 A4 为 mxn 阵 ，X 为 nx1 随 机 向 量 Y = 4X, 则 Cov(Y) = 
ACov(X)A'. 


证 明 : 
Cov(Y) = El(Y ~- EY)(Y - BY) 
= El(AX — E(AX))(AX — E(AX))'] 
= 4B[(X — EX)(X — EX)']A' 
= ACov(X)A'. 
定理 证 毕 . 


设计 和 YY 分 别 为 nx lm xl 随机 向 量 它们 的 协 方差 阵 定义 为 
Cov(X,Y)= E[(X -BEX)(Y ~ EY)']. 
定理 3.1.4 设 天 和 工分 别 为 nxlmxl 随 机 向 量 4 和 已 分 别 为 pxmgxm 


非 随机 和 矩阵 ， 则 
Cov(AX, BY) = ACov(X,Y)B'. 


证 明 
Cov(AX, BY) = E[(AX - E(AX))(BY - E(BY))] 
= AE[(X ~ EX)(Y ~ EY)]B' 
= 4Cov(X,Y)3/. 
定理 证 毕 . 


$3.2 ”随机 向 量 的 二 次 型 
假设 七 = (Xi,…,Xn) 为 n x1 随机 向 量 ，4 为 n xn 对称 阵 ， 则 随机 变量 
X'AX = ex 
i=1 j=1 


称 为 X 的 二 次 型 .本 节 只 要 求 Cov(X) 存在 ,在 对 X 的 分 布 不 做 进一步 假设 的 情 
况 下 ， 本 节 给 出 它 的 均值 和 方差 的 计算 公式 . 如 果 X 服从 多 元 正 态 分 布 ， 那 么 ， 
X'AX 还 有 进一步 的 性 质 ， 这 将 在 后 面 讨论 . 


83.2 随机 向 量 的 二 次 型 上 


定理 3.2.1 设 也 (X) = 凡 Cov(X) = 忆 则 
E(X'AX) = pAp+tr(AD). (3.2.1) 
证 明 因为 
X'AX = (X—-p+p) AX -p+p) 
= (X—p)AX-D+HAX-N+X-p) Ap+pAp, (3.2.2) 
利用 定理 3.1.1, 有 
Elp'A(X 一 门 ] = E(yAX)— WAp=pAE(X)— pAp=0, 
于 是 (3.2.2) 式 中 第 二 、 三 两 项 的 均值 都 等 于 零 ， 为 了 证 明 (3.2.1), 只 需 证 明 
EIl(X — p)A(X — 1)) = tr(AZ). (3.2.3) 
注意 到 
E[(X— 1) A(X -p= Eltr(X — 4)A(X 一 HA， 
利用 矩阵 迹 的 性 质 ， tr(4B) = tr(B4), 并 交换 求 均值 和 求 迹 的 次 序 ， 上 式 变 为 
EI(X -1)'A(X— 1)] = Eltr(X — 4p)'A(X -Hp)] 
= Etr[A(X — 1)(X—)] 
= trAE[(X — 1)(X —p)] 
= tr(42). 
定理 证 毕 . 8 
注 ”在 定理 证 明 中 , 我 们 应 用 了 一 个 很 重要 的 技巧 . 这 就 是 , 首先 注意 到 二 次 
型 (XX -~ jp)'A(X 一 ) 的 迹 就 是 它 本 身 ， 然 后 利用 迹 的 可 交换 性 tr(4B) = tr(B4)， 
交换 A(X 一 4) 与 (X 一 J) 的 位 置 ， 最 后 再 交换 求 E(-) 和 tr(.) 的 次 序 . 这 样 一 来 ， 
把 求 E[(XX 一 J)'A(X 一 )] 的 问题 归结 为 求 协 方差 阵 E[(X 一 p)(X 一 p)] =.2. 这 个 
技巧 在 后 面 的 讨论 中 会 多 次 用 到 . 
推论 3.2.1 ”在 定理 3.2.1 的 假设 条 件 下 ， 
(1) 若 p=0, 则 E(X'AX) = tr(A2); 
(2) 车 台 =o?1, 则 E(X'AX)= jp'Ap+o?tr(A); 
(3) 若 4=0,5= 了 , 则 E(X'AX)=tr(A). 
例 3.2.1 ”假设 一 维 总 体 的 均值 为 y, 方差 为 o?. Xi,…,X， 为 从 此 总 体 中 抽 
取 的 随机 样本 ， 试 求 样本 方差 


S57= XX) 
i=1 


58 第 三 章 多 元 正 态 分 布 


的 均值 ， 这 里 总 = 去 于 1 Xi: 

解 记 Q = (n 一 1)52,X = (X1,…,Xn)'. 我 们 首先 把 @ 表示 为 的 一 个 
二 次 型 用 ln( 在 不 会 引起 误解 时 也 常用 1) 表示 所 有 元 素 为 1 的 n 维 向 量 ， 则 
已 (X) = plnyCov(X) = o21,. 另外 


= 
n 


X-X1=X- lLX= (LI)X = CX, 


这 里 C = 太一 上 11, 这 是 一 个 对 称 等 等 阵 ， 即 C? = C,C' = C. 于 是 


Q= Te 一 次 )2 = (XX -1)(X -1) = (CX)'CX = XCX. (3.2.4) 
i=l 


应 用 定理 3.2.1, 得 


BE(Q) = (E(X))C(E(X)) + gtr(C) = p?1C1 + oztr(C)， 


容易 验证 
Cl1=0,tr(C)=n—1, 
故 有 
E(Q) = o?(n ~ 1). 
因而 
已 (S2) = 07. 
这 就 得 到 了 所 要 得 的 结论 . 


这 个 例子 证 明了 初等 数理 统计 中 的 一 个 重要 事实 ， 不 管 总 体 的 具体 分 布 形式 
如 何 ， 样 本 方差 总 是 总 体 方差 的 一 个 无 偏 估计 . 

现在 我 们 先导 出 二 次 型 X'4X 的 方差 公式 . 

定理 3.2.2 ” 设 随机 变量 Xi,i = 1,…,n 相互 独立 ， EE(X;) = js，Var(Xi) = 
02, mr = E(Xi—pi)", r=3,4. A= (aij)nxn 为 对 称 阵 . 记 X' = (X1,… = 
(po ,pn), 则 


Var(X'AX) = (ma — 304)a’a + 20tr(A?) + 402p A2p + dmap’ Aa, 


其 中 心 = (en,…,ann), 即 4 的 对 角 元 组 成 的 列 向 量 . 
证 明 ”首先 注意 到 


Var(X 4X) = E(X'AX)? 一 [E(X'AX)]?, (3.2.5) 


83.2 随机 向 量 的 二 次 型 a 


由 定理 3.2.1, 及 E(X) = jp,Cov(X) = o?1, 我 们 有 
E(X'AX) = p Ap + otr(A). (3.2.6) 
所 以 我 们 的 问题 主要 是 计算 (3.2.5) 中 的 第 一 项 ， 将 X'AX 改写 为 
XAX=(X—p)AX-H) + AX— p+ Ap, 
将 其 平方 ， 得 到 


(XAX)? = [Xp)' AX -P+ A AX -JP 
+(p Ap)? + 2p Ap[(X— 1) AX—p)+2uAX— p)] 
+4p' A(X —p)(X— p)'AX ~ p). 


令 Z=X-h, 则 忆 (2)=0. 再 次 利用 定理 3.2.1, 推 得 


E(X'AX)? = E(2'42)?+4E(y'A2) + (An)? 
+2p Ap(o?tr(A)) + 4E[1' AZZ' A2]. 


下 面 逐个 计算 上 式 所 含 的 每 个 均值 ， 由 
(2'42) = >》 》 yy aiau21212x21 
人 


及 和 2 的 独立 性 导出 的 事实 


m， 车 =j=k=1, 
EB(Zi2;2k21) = 4 04, 若 i=jk=4i=k,j=1i=1,j=k, 
0, 其 它 ， 
便 有 
BE(2'42)? = ma (Sa) +o4 Co + Da + Daios 
i=1 i i¥j i#j 
= (ma — 304)a'a + 0 [(tr(A))? + 2tr(A2)] ， (3.2.7) 
而 


E(1'A2)* = E(w AZ :1 AZ)= E(Z'Appy'AZ) 
= tr(App A) :0 = op A2p. (3.2.8) 
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最 后 ， 若 记 5 = Ap, 则 
E(WAZ:242)= 》 》 ,ybiajikB(ZQ12)， 
i k 


因为 
| ma， 着 i=j = 名 
E(2i2;2k) = 
0, 其 它 ， 
所 以 
E(WAZ. 2'A2)= ms 》 biaii = maba = map! Aa. (3.2.9) 


将 (3.2.7)~(3.2.9) 代入 (3.2.6), 再 将 (3.2.5) 和 (3.2.6) 代入 (3.2.4), 便 得 到 了 要 证 的 
结果 .定理 证 毕 . 


83.3 正 态 随机 向 量 


若 随机 变量 X 具有 密度 函数 
f(z)= 7 -oo<z< +oo， 


则 称 X 为 具有 均值 4, 方差 o? 的 正 态 随机 变量 , 记 为 W(/ c?). 推广 到 多 元 情形 ， 
我 们 可 以 做 如 下 定义 : 
定义 3.3.1 ” 设 n 维 随机 向 量 义 = (Xi,…,X,) 具有 密度 函数 


1 -3(z-m'E-1(z- 
He) = ry 82 (一 由， (3.3.1) 


其 中 z = (zw1,… zn) ,00 < zi < 二 ooi = = (Jj1,… ,jn) 了 是 正定 矩 
阵 ， 则 称 X 为 n 维 正 态 随机 向 量 ， 记 为 Nn(1w, 2). 在 不 致 引起 混 清 的 情况 下 ， 也 
简 记 为 N(p, 2), 这 里 p 和 工分 别 为 分 布 参 数 . 

我 们 首先 证 明 ， 其 中 的 参数 4 为 X 的 均值 向 量 ， 也 为 X 的 协 方差 阵 ， 在 
(3.3.1) 中 ， 用 到 了 2 , 因此 我 们 假定 写 是 正定 阵 ， 记 为 史 >0. 用 记 允 的 平 
方 根 阵 ， 记 2- 和 为 的 道 矩阵 ， 即 了 -二 = (二 )-1. 定义 

和 二 和 (3.3.2) 


故居 = 34Y + 于 是 了 的 密度 函数 为 g(y) = 7(2 怒 十 中 | 了 |, 这 里 J 为 变换 的 
Jacobi 行列 式 ， 


Oz Or1 
Bn Oy 

J=| : : |=I231= 全 
Orn Orn 


By Bon 
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从 (3.3.1) 得 到 了 的 密度 函数 
IT 
sn) = pe w=]] “= 


这 里 


是 标准 正 态 分 布 的 密度 函数 ， 这 表明 ， 了 的 n 个 分 量 的 联合 密度 等 于 每 个 分 量 的 
密度 函数 的 乘积 .于 是 ，Y 的 n 个 分 量 相互 独立 , 且 ~ N(0,1),i=1,…,n. 因 
而 有 BE(Y) = 0,Cov(Y) = 工 利用 关系 X = 28Y + 及 定理 2.1.1 和 定理 2.1.3, 得 
EX) = ,Cov(X) = 2. 这 就 完成 了 所 要 的 证 明 . 

从 定义 3.3.1 可 以 看 出 ,多 元 正 态 分 布 完全 由 它 的 均值 向 量 y 和 协 方差 阵 荆 所 
确定 . 特别 ， 若 4 = 0, 卫 = 也 此 时 称 X 服从 标准 正 态 分 布 N(0,7), 它 的 概率 密度 
函数 具有 如 下 形式 


/四 = Be 

容易 证 明 ， 它 的 于 个 分 量 =i,.…，zn 魏 服 从 N(0,1) 且 相互 独立 . 定义 3.3.1 是 用 概 
率 密度 函数 定义 分 布 的 ， 它 需要 假设 协 方差 阵 了 > 0. 下 面 我 们 引进 多 元 正 态 分 布 
的 另 一 种 定义 ， 

定义 3.3.2 ” 设 X 为 n 维 随机 向 量 . 若 存在 nx" 的 列 满 多 矩阵 4, 使 得 
义 =4U + 这 里 VU = (WW,…,ur)',ui ~ N(0,1) 且 相 互 独立 , p 为 n x 1 非 随 
机 向 量 ， 则 称 X 服从 均值 为 x 、 协 方差 阵 为 了 = AA' 的 多 元 正 态 向 量 ， 记 为 
区 ~ Nu(w 下), 在 不 致 引起 混淆 时 简 记 为 X ~ NU 区 ) 

这 个 定义 是 由 我 国 统计 学 先驱 许 宝 又 先生 提出 的 ( 见 文献 [103], p.28), 他 把 多 
元 正 态 向 量 定义 为 若干 个 相互 独立 的 一 元 标准 正 态 分 布 随机 变量 的 线性 变换 ， 在 
这 个 定义 中 。 习 可 以 是 半 正定 的 ， 即 || = 0, 这 时 的 分 布 称 为 奇异 正 态 分 布 ， 如 
果 限 制 2 > 0, 则 这 个 定义 与 定义 3.3.1 是 等 价 的 . 事实 上 ， 从 (3.3.2) 及 其 后 的 证 
明 我 们 可 以 把 X 表示 为 = D3Y + 这 里 和 ~ N(0,1),i = 1.…,n 独立 ， 据 此 
式 ， 两 种 定义 的 等 价 性 是 显然 的 ， 定 义 3.3.2 不 仅仅 是 把 多 元 正 态 的 定义 推广 到 奇 
异 正 态 的 情形 ， 而 且 根据 这 种 定义 ， 容 易 推导 多 元 正 态 分 布 的 一 此 性质. 

应 用 定义 3.3.2, 很 容易 证 明 下 面 的 定理 . 

定理 3.3.1 设 X~ Na(iz), 了 > 0,B 为 mxn 任意 实 秆 阵 , 则 Y= BX ~ 
N(Bu BEB'). 

证 明 设 rk(2) = ~ 根据 定义 3.3.2, 存在 n xr 矩阵 4， rk(4) = ” 天 可 表示 
为 


X=AU+tp, AA'=5, U~N(O,T). 
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于 是 
Y= BAU+ Bp, 
再 用 定义 3.3.2, 定理 得 证 . 
这 个 定理 表明 ， 多 元 正 态 向 量 的 任意 线性 变换 仍 为 正 态 向 量 . 
推论 3.3.1 设 和 ~ Nn(p,5),5>0, 则 


= 4Xw N(D-#p,1,). 


注意 ， 这 里 X 的 诸 分 量 可 以 是 彼此 相关 和 且 方差 互 不 相等 ， 但 经 过 变换 过 的 Y 
的 诸 分 量 相互 独立 ， 且 方差 皆 为 1. 这 个 推论 表明 ， 我 们 可 以 用 一 个 线性 变换 把 诸 
分 量 相关 且 方 差 不 等 的 多 元 正 态 向 量变 换 为 多 元 标准 正 态 向 量 . 

推论 3.3.2 设 于 ~ Nn(p,0?7),Q 为 nxn 正 交 阵 ， 则 QX ~ N,(Qj,021). 

这 个 推论 的 证 明 是 容易 的 ， 留 给 读者 做 练习 . 

本 推论 表明 ， 诸 分 量 相互 独立 旦 具有 等 方差 的 正 态 向 量 ,经 过 正 交 变换 后 ， 变 
为 诸 分 量 仍 然 相互 独 立 且 具 有 等 方差 的 正 态 向 量 . 

现在 我 们 来 求 X ~ N(p, 区 ), 允 > 0 的 概率 密度 函数 . 设 rk(D) = 7 < n,Q = 
(Q1 : 82) 为 的 标准 正 交 化 特征 向 量 组 成 的 正 交 阵 ， Qi 为 n xr 和 矩阵， 其 7 个 
列 对 应 于 非 零 特征 根 和 1,…, 和 ,82 为 nx (n 一 +), 其 n 一 r 个 列 丝 对 应 于 特征 根 
等 . 记 A = diag(O1,…, 和 7), 则 


228 = (jx(s @; ) 


_ [ze Qize | 1 A0 
Q22Q，Q52Q> 0 0 


考虑 线性 变换 
Ya = QiX, 
Yi2) = Q2X, 
依 定理 3.3.1, 有 
Yiy = QX ~ N.(Qip, A), (3.3.3) 
Ta = Q2X ~ Nn_r(Q2p,0). (3.3.4) 


由 (3.3.4) 推 得 ， 85X = Q@&p, 以 概率 为 1 成 立 ， 这 等 价 于 @4(XX 一 jp) = 0, 以 概率 
为 1 成 立即 
六 一 LE M(Q1)， 以 概率 为 1 成立. (8.3 
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因 卫 = QiAQ1, 所 以 M(5) = M(Q1). 我 们 推 得 (3.3.4) 等 价 于 
和 -HAEA(Z)， 以 概率 为 1 成 立 . (3.3.6) 
另 一 方面 ， 从 (3.3.3) 得 ， Yi 的 概率 密度 函数 为 
ga) = 20) SIA exp{-$(y) 一 GUOArio - Of)}. 837) 


作 变 换 x = Qy. 由 @ 的 正 交 性 ,该 变换 的 Jacobi 行列 式 198 |= 士 1. 又 ya) = Qiz， 
从 (3.3.7) 得 到 的 密度 函数 


f(z) = CDi) ef en 3 -站 'QIA-lQ'i(z - 的 
i=1 
3 Qn-s(II») exp{ 本 3 -四 zt- 中 (3.3.8) 


由 (3.3.6) 知 ， (z 一 yp) 区 -~(z -有 与 广义 逆 瑟 - 选择 无 关 ， 于 是 
(一 AZ2+(z 一 站 =(z 一 站 了-(z 一 及. 


综合 (3.3.5) 和 (3.3.7), 我 们 得 到 如 下 结论 : 若 X ~ Na(p, 2),rk(2) =7,， 则 zw 一 
以 概率 为 1 落 在 子 空间 M(Z) 内 ， 且 在 此 子 空间 内 有 密度 函数 (关于 该 子 空间 的 
Lebesgue 测度 ) 


r -1/2 
(27)-¥ (ls) exp{-3(z — pH) T(z — 1)}. (3.3.9) 
‘i=l 


这 个 结果 是 由 Khatri( 见 文献 [71]) 得 到 的 . 

把 上 面 的 结果 归纳 起 来 ， 即 为 

定理 3.3.2 设 X~ Na( 2), 则 

(1) 当 马 > 0 时 ，X 具有 密度 (3.3.1); 

(2) 当 rk(2) =r < 时， 无 一 4 以 概率 为 1 落 在 子 空 间 M(Z) 内 ， 且 在 此 子 
空间 内 具有 密度 (3.3.8). 

应 用 定义 3.3.2, 我 们 也 很 容易 获得 多 元 正 态 分 布 的 特征 函数 . 我 们 知道 N(0, 1) 
的 特征 函数 为 

pO) =e- 


于 是 U ~ N,(0, 了 7.) 的 特征 函数 为 


Pull) = YF teR,. 
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记 i= V=TI, 那么 X = AU + 的 特征 函数 


palt) = BetX 一 ple (AU+H)) 
a ei{ np(et 40) i eit Hp, (A't) 
= etpe-ssp 


= et penR,. 


因为 由 概率 论 中 的 惟一 性 定理 , 我 们 知道 , 随机 变量 的 分 布 是 由 它 的 特征 函数 惟一 
确定 的 ， 于 是 我 们 证 明了 如 下 定理 : 
定理 3.3.3 XX ~ Nn(/,Z) 当 且 仅 当 它 的 特征 函数 为 


pa(t) = ei te R,. 


定理 3.3.4 ”具有 均值 向 量 p, 协 方差 阵 为 2 的 随机 向 量 XX 服从 多 元 正 态 分 
布 当 且 仅 当 对 任意 实 向 量 c, CX ~ N(cj ezc), 这 里 本 > 0. 

证 明 ”必要 性 由 定义 3.3.2 直接 推出 ， 也 可 以 从 定理 3.3.1 导出 . 

现在 证 明 充分 性 ， 若 对 任意 c, cX ~ Ne czc), 则 对 一 切 te R, 有 


Pe cf Pcjt2 
ee 的 = et 


特别 令 t= 1 ， 
pos(l) = e+ SF = pole), 


于 是 随机 向 量 X 的 特征 函数 


pa(0) = et 


由 定理 3.3.3, 这 正 是 N(h, 2) 的 特征 函数 . 依 惟一 性 定理 , 知 X ~ N(p, 5). 证 毕 . 

注 车 关 ~N(p,5), 当 对 >0 时， 对 任意 ce Rn, 若 c 夫 0, cDc>0, 则 coX 
是 非 退 化 的 一 元 正 态 变量 . 若 卫 > 0,rk(2) = > < 六 即便 c 关 0, 可 能 有 ce = 0. 这 
时 P(cX = cy) = 1,cX 是 退化 的 一 元 正 态 随 机 变量 . 事实 上 , 对 任意 ce M(5)+， 
都 有 P(eX = ep)=1. 

例 3.3.1 设 嫩 ， 和 为 从 正 态 总 体 Nu c2) 抽取 的 简单 随机 样本 ， 则 样 
本 均值 卫 = D2 Xi ~ N(p, 全 ). 

事实 上 ， 若 记 X = (Xi,…,Xn) ,ec = (人 则 总 =cX. 依 3.3.4 知 浆 
服从 正太 分布 ， 其 余 结论 的 证 明 是 容易 的 ， 留 给 读者 作 练习 . 

在 定理 中 取 c = (0,…,0,1,0,…,0), 则 cX = X;, cp = cDc = oi. 于 是 
我 们 有 如 下 推论 ， 
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推论 3.3.3 设 XX~ Nn(p5D),p= (ps pn), 2 = (05), 则 Xi ~ N(pis0i), 
站 一 

这 个 推论 表明 ， 若 六 = (X1,… ,Xn)' 为 n 维 正 态 向 量 ， 则 它 的 任 一 分 量 也 是 
正 态 向 量 (包括 退化 情形 ). 但 反 过 来 的 结论 未 必 成 立 ， 即 X1,… ,Xn 均 为 正 态 变 
量 ，X = (X1,…,Xn)' 未 必 为 正 态 向 量 . 我 们 可 以 举 出 很 多 这 样 的 例子 ， 下 面 就 
是 其 中 的 一 个 . 

例 3.3.2 设 3 Y) 的 联合 密度 函数 为 


fy) = +) P- -co < zy < +oo， 


i ] 

(z2 十 1)(%2 十] 

显然 这 不 是 二 元 正 态 分 布 的 密度 函数 ， 而 X 和 Y 的 边缘 分 布 为 N(0,1). 
事实 上 


ha = 三 7eam 
= i 
em 因此 第 二 项 积分 等 于 零 ， 于 是 
fi(z) = 二 人 e-#(s+y)qy 


-Le- 学 六 1- 
~ 大 多 
ER 
后: 

这 里 利用 了 5 记 e- 和 ay =1 

这 就 证 明了 X ~ N(0,1). 在 f(z,y) 表达 式 中 , z,y 的 地 位 完全 对 称 ， 故 Y ~ 
N(0,1) 也 成 立 . 

这 个 例子 容易 推广 到 多 元 情形 ， 设 X,,…,X, 的 联合 密度 为 
DE 

. ee 

显然 ，X1,…,X 联合 分 布 不 是 n 元 正 态 ,但 用 前 面 同样 的 方法 ， 可 以 证 明 X ~ 
N(0,1), i= 1,.…,n. 

现在 我 们 来 讨论 多 元 正 态 的 进一步 性 质 ， 先 讨论 边缘 分 布 . 在 以 下 讨论 中 , 无 
特殊 声明 ， 总 假设 2 > 0, 即 了 不 必 是 正定 阵 . 

将 克 包 马 做 如 下 分 块 


xX 
| es | (3.3.10) 
X2 ja Ea 2Z22 


f(z1*, Tn) = 
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这 里 Xi,Ha 皆 为 四 xl 向量 ，2Zi 为 m xm 和 矩阵. 
定理 3.3.5 设 X~ Na(p,25), 则 XI ~ Nn(p, Di),Xa ~ Nn_m(k2, D22). 
证 明 Xi 的 特征 函数 为 


aa = pa(t tm 0 0) = et a, 


依 定理 3.3.3 知 Xi ~ Nm(p1, Pi), 同 理 可 证 X2 ~ Nn_m(ji2, 522), 定理 证 毕 . 
注意 :这 个 定理 也 可 以 用 定理 3.3.1 来 证 明 . 
定理 3.3.6 ” 设 天 ~ Nn(p,5), 则 和 和 Xz 独立 当 且 仅 当 Dia = 0. 
证 明 设 te Rn, t= (t,t)', by € Rm, to € Rn-m. pa(t), poi (ty), pas 人 ta) 
分 别 表示 X,X! 和 X 的 特征 函数 ， 于 是 
Za = 0 > tLt=t Tut + tt 


> pzlt) = pz, (ti)pz,(t2). 


利用 如 下 事实 : 随机 向 量 独 立 当 且 仅 当 它们 的 联合 特征 函数 等 于 它们 的 边缘 特征 
函数 的 乘积 ， 这 就 证 明了 我 们 的 结论 ， 定 理 证 毕 . 
这 个 定理 刻画 了 多 元 正 态 分 布 的 一 个 重要 性 质 , 相互 独立 与 不 相关 是 等 价 的 . 
如 果 限 于 非 奇异 正 态 分 布 ， 当 Di = 0 时 ， 则 (3.3.1) 可 分 解 为 


f(z) = fi(z1)f2(z2), 
其 中 


1 ss 
filz1) = se $a) Pr (ep), 


诚 (= 机， 
这 里 户 (z:) 和 户 (z?) 分 别 是 Xi ~ Non(pb Da) 和 Xo ~ Ns_m(j2, Daa) 的 密度 函 
数 . 因为 从 > 0 可 推出 Bt > 0 ,因此 非 奇 异 正 态 分 布 的 边缘 分 布 也 是 非 奇 异 的 . 
例 3.3.3 ”二 元 正 态 分 布 
从 初等 概率 统计 教科 书 我 们 已 经 知道 ， 二 元 正 态 分 布 密 度 为 
1 


2roa Vi 
op{ pn 二 性 -2 (2 ) (2 -0 )+ 色 #3 


车 写成 (3.3.1) 的 形式 ， 则 其 中 的 六 和 了 分别 为 


f(z1,22) = 
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它们 分 别 是 二 元 正 态 向 量 的 均值 向 量 和 协 方差 阵 , p 表示 相关 系数 .因为 | 了 | = 
(1 一 户 )c?o3, 所 以 为 了 保证 2 可逆， 我 们 要 求 |p| < 1. 
当 p=0 时 ， 了 = diag(o?,o3), 依 定理 3.3.6 知 ， 此 时 Xi 与 X2 相互 独立 , 且 
Xi ~ No 人 ). 关于 这 个 事实 我们 也 可 以 从 密度 函数 得 到 证 明 . 当 p=0 时 ,， 它 
的 联合 密度 可 分 解 为 
i 1 2 


/em Ee 
可 见 Xi ~ N(ps0?), 且 相 互 独立 . 
下 面 我 们 讨论 多 元 正 态 的 条 件 分 布 . 


定理 3.3.7 设 铸 ~ Non( 凡 2), 对 夸 , 凯 王 做 如 (3.3.10) 的 分 块 , 则 给 定 2 = zl 
时 ， X2 的 条 件 分 布 为 


Xa2|Xi = zl ~ Nn-m(p2 + Za2iDii(zl — H1), L221), 


这 里 B22.1 = B22 - D215Dn D12. 


证 明 令 
徊 ， - 涌 
C= x 
( -PaDh Tm ) 


做 变换 了 = CX, 则 Y ~ Nna(Cp,CEC'). 利用 (2.2.11) 和 (2.2.12) 得 


E21 — Da Pn2u = 0, P12 — Di(2m)" 2 =0, 


i ( 六 ,> ) ( 5 ) 人 In | 
一 DaiZD In-m Z21 2Z22 0 Wi 
_[B 0 
且 


ba Xl 
了 2 Xa — 221DETX 
了 0 
总 汪 1 3 . 
Ha — DalDnp 0 F221 


即 
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于 是 
KX2 — PanXi ~ Nn_m(p2 — BaPnp, L221), 


X1~ Nn(p1, Zu), 
且 二 者 相互 独立 ， 故 给 定 Xi = zl 


X2 ~ Nm(p2 + Z21Zii(zl — p1), Z22.1). 
证 毕 . 
从 这 个 定理 我 们 可 以 获得 如 下 重要 事实 : 
B(X2lX1 = 21) = p12 + Dadn(zi — p1) = (pa — Ladinip) + ToTiniz, 


即 给 定 Xi = z1, X2 的 条 件 均 值 是 zi 的 线性 函数 . 

由 定理 3.3.2 的 证 明 , 我 们 知道 ，Xi 一 je M(Du)( 以 概率 为 1), 而 M(22) C 
AL(2i) 所 以 ， Da12n(z1 一 向 ) 与 广义 逆 Bii 的 选择 无 关 ， 从 定理 的 证 明 ， 我 们 
还 可 以 有 如 下 推论 ， 

推论 3.3.4 (1) Xi - Zi2ZZDX2 ~ Nm 一 D2832p2, D11.2) 且 与 X2 ~ 
Nn-m(p2, D22) 相互 独立 ， 其 中 B11.2 = D1 D125 D21. 

(2) Xa — BaP Xi ~ Nn-m(p2 — Padnp, L221) 且 与 Xi ~ Nm(p1,2u) 相 
互 独立 . 
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设 忒 ~ (DZ),4nxn 为 实 对 称 阵 ， 本 节 的 目的 是 研究 X'4X 的 性 质 ， 特 别 
是 在 什么 条 件 下 ， 二 次 型 X'4X 服从 x? 分 布 ， 并 讨论 x? 分 布 的 一 些 重要 性 质 . 
以 下 我 们 总 假设 隐 > 0. 

定理 3.4.1 (1) 设 X ~ Na(p 2), 4nxn 对 称 ， 则 Var(X'AX) = 2tr(42)2 十 
hy ADAL, 

(2) 设 X ~ Nn(p,027), Anxn 对 称 ， 则 Var(X'AX) = 204tr(4?) + 4o2p'A2p. 

证 明 (1) 记 Y = 573X, 则 Y ~ Nn(2-#p, 了 ), 所 以 Y 的 分 量 相互 独立 ， 且 
Var(X'AX) = Var(Y'2E 424Y), 注意 到 对 正 态 分 布 


ma = E(Y: ~ EYi)? =0, 
m4 = E(Y; - EY:)* =3. 


应 用 定理 3.2.2, 便 得 到 第 一 条 结论 . 
(2) 这 是 (1) 的 特殊 情况 .定理 证 毕 . 
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定义 3.4.1 设 钱 ~ Nn(p,1n). 随机 变量 Y = X'X 的 分 布 称 为 自由 度 为 n， 
非 中 心 参数 为 和 = yp 的 x 分 布 , 记 为 Y~x?、. 当 入 = 0 时 ， 称 了 的 分 布 为 中 


心 妇 分 布 ， 记 为 了 ~ x2. 
定理 3.4.2 ”x? 分 布 具有 下 述 性 质 ， 
(1) (可 加 性 ) 设 下 ~ Xeoi= lj 且 相互 独立 则 


Yt ~ 


这 里 n=Dno 和 = DA 
(2) E(xX2) =nt+A, Var(x2)) = 2m 十 4》. 
证 明 (1) 根据 定义 易 得 ， 下 证 (2). 
(2) 设 Y ~ xX、, 则 依 定义 , Y 可 表示 为 


Y=X?+..+ X21 + X2, 


其 中 Xi ~ N(0,1), i=1…,n 一 1，Xn ~ N(V 和 1), 且 相 互 独立 ， 于 是 


B(Y)= B(x?), 


Var(Y) = 立 Var(X?). 
i=1 


因为 


EB(X?2) = Var(Xi) + E(Xi)* = | 
9 


代入 (3.4.1), 第 一 条 结论 得 证 ， 直 接 计算 可 得 
EXt =3,. i=1,.…,n—1, 
EX = A+6A+3. 
于 是 


Var(X?) = BX# — (BX2)? =3-1=2, i=b.n-l 


Var(X2) = EX — (EX2)? =2+4A. 
代入 (3.4.2) 便 证 明了 第 二 条 结论 . 


1, i=1,,n—1, 


(3.4.1) 


(3.4.2) 


设 XX ~ Nn(0, 允 ), 允 > 0, 依 定义 容易 证 明 二 次 型 X'Z-IX ~ x? . 事实 上 ， 记 


Y=2-3X, 则 Y~ Na(0,7). 于 是 


XT IX= (PD-IX) (EX) = YY ~ x2. 
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对 于 正 态 向 量 的 一 般 二 次 型 ， 我 们 有 下 面 的 定理 . 

定理 3.4.3 设 X~ Nn(p,I1n),4 对称, 则 X4X ~ xuan < 4 逢 等 ， 
rk(4) = r. 

证 明 ” 先 证 充分 性 . 设 4 短 等 、 对 称 ， 且 rk(4) = ”, 依 定理 2.3.1, 4 的 特征 
根 只 能 为 0 或 1, 于 是 存在 正 交 方 阵 @, 使 得 


0 
| ]* 
0 0 


令 Y=QX, 则 Y ~ Nn(Qp,In), 对 Y 和 QQ 做 分 块 


其 中 Yiy:r x1,Q1:7xn. 于 是 
1 I 0 1 2 
XAX==Y 0 Y = YK) ~ Xr， 
0 


其 中 和 = (Qip)'Qip = Qi = pAp. 
再 证 必要 性 ， 设 kk(4) =t. 因 4 对 称 ， 故 存在 正 交 方 阵 @, 使 得 


A 0 
(js 
0 0 


其 中 A = diag( Xi……》o). 我 们 只 需 证 明 AN = 1 = 1 bt 令 了 =QX 则 
Y ~ Wan). 记 


c=Q@U= ， 
cn 
则 
, {Ao u 
X'AX =Y Y= NY; (3.4.3) 
0 0 i=1 


这 里 六 = (下 … 玖 ) 芒 ~ N(cj,1) 且 相 互 独立 ，j = 1,…,t. 依 特征 函数 的 定义 ， 
不 难 算出 AyY? 的 特征 函数 为 


0 = (0 人 
J 
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利用 独立 随机 变量 之 和 的 特征 函数 等 于 它们 的 特征 函数 之 积 ， 由 (3.4.3) 得 X'AX 
的 特征 函数 ， 

iA 
He = 2 lem {TS | (3.4.4) 
我 们 再 来 计算 x?,、 的 特征 函数 . 设立 ~ xX 入 = pAp, 记 = 地 十 … 十 世 , 其 中 
1 ~ NN(AM2,1), uj ~ 和 N(0,1), 7 > 2. 和 刚才 同样 的 道理 ， 得 v 的 特征 函数 ， 


[ei -2 sop {7S}- (3.4.5) 


依 假设 ，X'AX ~ x 于 是 (3.4.4) 和 (3.4.5) 应 该 相等 、 比 较 两 者 的 奇 点 及 其 个 
数 知 ， 和 = 1,7=1…,t, 且 t=7. 必要 性 得 证 .定理 证 毕 . 

推论 3.4.1 设 hnxn 对 称 ，X ~ Na(p, 了 ,那么 XX'AX ~ 又, 即 中 心 x? 分 布 
> 4 寡 等 ，rk(4) = 上 ,Ayp = 0. 

推论 3.4.2 ” 设 Anxn 对 称 ，XX ~ Nn(0, 了 ), 那么 X'AX ~ ,< 一 4 寡 等 ， 
rk(4) =k. 

推论 3.4.3 设 hnxn 对 称 ，X ~ Nn( 2), 2 > 0, 那么 X'AX ~ xX, 和 = 
WAp < 424 = 4. 

定理 3.4.3 及 其 推论 把 判定 正 态 变量 二 次 型 服从 x? 分 布 的 问题 化 为 研究 相应 
的 二 次 型 矩阵 的 问题 ， 而 后 者 往往 很 容易 处 理 ， 因此， 这 些 结果 是 判定 x? 分布 的 
很 有 效 的 工具 . 

例 3.41 设 久 ~ Na(CB,o?]),rk(C) = r 利用 推论 3.4.1 容易 证 明 ，X'[7 - 
C(C'C)-C]X/o2 ~ x2,. 

事实 上 ， 该 二 次 型 的 矩阵 4 = 工 - C(C'C)-C' 是 知 等 阵 ， 依 定理 2.3.3 ， 有 
rk(4) = tr(4) = tr(I ~ C(C'CO)-C) = n -tr(C(C'C)-C’) = n -rk(C(C'C)-C'). 
再 利用 推论 2.2.1(3) 得 zk(4) =n 一 rk(C'C) =n 一 rk(C) =n 一 x. 又 因 AC =0, 根 
据 推论 3.4.1,X'[ - C(C'C)-COX/o2 ~ x2_,. 

定理 3.4.4 设 X~ Nn(p,1D), X'AX = XIAX+X'AX ~ XXX ~ 
X2A42 > 0, 其 中 入 = 4 Ai = 4. 则 

(D XAsX ~ Xx2 as N= pA2p, 

(2) X'A1X 和 XX'A2X 相互 独立 ， 

(3) 4142 = 0. 

证 明 因 X4X ~ Xx?2、, 由 定理 3.4.3 知 ，4 知 等 ，rk(4) =7, 于 是 ， 存 在 正 


交 方 阵 已 , 使 得 
hpsd| < ? 3 
0 0 


各 
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因 4 > 41,4 > 42, 于 是 


B， 0 
| . } Bi:r xm 
0 0 


B20 
P'AsP= ( 了 | ， Ba:rxr. 
0 0 


由 假设 X'A1X ~ x2、,, 推 得 好 = 4i, 于 是 B? = Bi. 故 存在 正 交 阵 @rxr, 使 得 


1 0 
Q'BQ= ( ) ’ 
0 0 


记 
i 
这 汉 
0 hr 
则 5 为 正 交 阵 ， 且 使 
3'145 = SA1S+5'A2S 
形 为 
9 1 00 0 0 0 
QO Wi 0 | 
0 0 0 0 0 0 0 0 0 


做 变换 了 = SX, 依 定理 3.3.1, 有 Y ~ Nn(Su, 了). 于 是 
X'AX =Y'S'ASY = Tr 


= 
。 
XAX=Y'S'ASY = DY?, 
1 


X'AX=Y'5'A2s5Y = 》 Y?. 


i=s+1 
因为 区 … 丈 相互 独立 ,所 以 X'A1X 与 XX'42X 相互 独立 . 再 依 定义 ，X'42X ~ 
Wi 又 
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(3) 得 证 .定理 证 毕 . 

推论 3.4.4 设 开 ~ Nn(j, 了 ,A1,Az 对 称 ，X'A1X 和 X'A2X 都 服从 x? 分 
布 ， 则 它们 相互 独立 <>4142 = 0. 

证 明 ”充分 性 . 令 4 = 4: + 42. 由 A142 = 0, 可 推出 A42h41 = (A142) = 0. 
因此 ， 由 hi1, 42 的 舌 等 性 得 


4 和 =(4+42)2= 4 人 + 性 +4i4s+4a4 = A1+ Ah2 = 有 A， 


即 4 圭 等 . 由 定理 3.4.4, X'A1X 与 X'42X 相互 独立 . 

必要 性 ， 若 X'A1X 与 X'h2X 相互 独立 ， 则 X'AX 也 服从 x2 分布， 再 由 定 
理 3.4.4(3), 结论 得 证 . 

上 面 两 个 定理 很 容易 推广 到 Cov(X) = 2 > 0 的 情形 . 

推论 3.4.5 设 和 ~ Nn(p,5), 号 > 0 X'AX = X'ALX+X'AX ~ 3 
X'ALX ~ x2 sw， A2 > 0, 则 

(1) X'A2X ~ xX?_, a 

(2) X'A1X 与 X'42X 相互 独立 ， 

(3) A1742 = 0, 
其 中 和 i,i = 1,2,3 为 非 中 心 参数 ， 不 再 精确 写 出 . 

推论 3.4.6 ” 设 X~ Nn(m ZE),2 > 0,4i,42 对 称 ，X'A1X 与 X'42X 都 服 
从 x 分布， 则 它们 相互 独立 <>A1542 = 0. 

在 这 个 推论 中 ,我 们 要 求 X'41X 与 X'42X 都 服从 x? 分 布 . 事实 上 ， 从 下 一 
节 我 们 可 以 看 出 ， 这 个 条 件 是 可 以 放弃 的 . 
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设 针 ~ Nn 区 ),4,B 箔 为 n 阶 对 称 阵 ，C 为 m xn 矩阵， 本 节 将 建立 二 次 
型 X'AX,X'BX 和 线性 型 CX 相互 独立 的 条 件 . 这 些 结果 在 线性 模型 的 参数 估计 
和 假设 检验 中 将 有 重要 应 用 . 


定理 3.5.1 设 久 ~ Nn(p, 了 ), 4 为 nxn 对称 阵 ，C 为 mxmn 矩阵. 若 C4= 0， 
则 CX 和 X'4X 相互 独立 . 


证 明 由 4 的 对 称 性 ， 知 存在 标准 正 交 阵 P, 使 得 


A 0 
已 4P = ( } (3.5.1) 
0 0 
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A 0 
CP =0. (3.5.2) 


Di Di 
D=CP= ， 
( Da Do ) 
由 (3.5.2) 推 得 Di = 0, Dz = 0. 于 是 DD 就 变 为 


Bel 全 (0:D)， Dimx (nr). 
0 D2 


价 于 


车 记 


将 做 对 应 分 块 :P= (Pi: 忆 ), 忆 为 nxr. 那么 


nl 
C= DP’'= (0:D1) = DiP;, (3.5.3) 
Rs 
A 0 
A=P P'=PAP. (3.5.4) 
0 0 


记 Y = P'X, 依 定理 3.3.1, 我 们 知道 


Yo PX 
Y= = ~ Nn(Pp, 7). 
Ye PX 
显然 ， Yt1) 和 Ytz) 相互 独立 .但 由 (3.5.3) 和 (3.5.4), 有 
CX = DiPX = Diyo)， 


X'AX = X'PIAPIX = IO)AKD， 


因 CX 只 依赖 于 Ya) 而 X'4X 只 依赖 于 Yiy), 所 以 CX 与 X'AX 独立 ， 定 理 得 
证 . 


例 3.5.1 设 天,…,X 为 取 自 NN(0,0?) 的 随机 样本 ， 则 样本 均值 耻 与 样本 
方差 92 = 二 总 1(Xi 一 总 )2 相互 独立 . 
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事实 上 , 车 记 针 = ( 访 ，… ,XX。),1 = (1,…,1), 即 1 为 所 有 分 量 全 为 1 的 nx1l 
向 量 ， 关 ~ Nn(0,o27), 则 
和 = 21X， (nl)s= XCX, 


这 里 i 
C=h- #1l. 
容易 验证 1C = 0, 由 定理 3.5.1 知 下 与 5? 独立 . 
推论 3.5.1 设 和 ~ Nn(p, 了 了), 本 > 0，Anxn 为 对 称 阵 ， 若 C24 = 0, 则 CX 
与 X'A4X 相互 独立 . 
证 明 留 给 读者 作 练 习 . 
定理 3.5.2 设 关 ~ Nn(p, 了 ,4,B 和 nxn 对称， 若 4B = 0, 则 X'4X 与 
X'BX 相互 独立 . 
证 明 由 4B=0 及 4,B 的 对 称 性 , 立 得 B4=0, 于 是 AB=B4, 故 存在 正 
交 阵 P, 可 使 4, B 同时 对 角 化 ， 即 
P'AP = A = diag(A 人 ,AGO))， 
P'BP = Az = diag(A 人 2) ,AM2)). 
由 4 有 B =0 一 AlAz = 0, 即 


和 9 和 A 四 至 少 有 一 个 为 0，i= 1,…,n. (3.5.5) 
洛 
nn 
Y=PX=| : |， 
区 


则 工 ~ Nn(P'p, 了 ), 于 是 Y 的 诸 分 量 六 ,…,Y, 相互 独立 ， 但 
X'AX = X'PALP'X = Y'AY, 
X'BX = X'PA2P'X = Y'A2Y. 
根据 (3.5.5),X'4X 与 X'BX 所 依赖 的 了 分 量 不 同 ， 故 X'AK 与 XBX 相互 独 
立 ， 定 理 得 证 . 
这 个 定理 的 逆 也 是 对 的 ， 即 设 ~ Nn(p,7 了 ), 4, 如 蕴 nxn 对 称 ， 车 X'AX 
与 XX'BX 相互 独立 ， 则 4B = 0. 这 个 事实 的 证 明 此 处 就 略 去 了 ， 详 见 文献 [42] 和 
l88], 后 者 还 把 定理 推广 到 奇异 正 态 分 布 的 情形 . 
推论 3.5.2 设 X~ Na 2)Z> 04, 忆 皆 呈 xz 对 称 . 车 45B = 0 则 
X'4X 与 XX'BX 相互 独立 . 


76. 第 三 章 多 元 正 态 分 布 


习题 三 
3.1 设 XX，X2,…, Xn 为 随机 变量 ， Yi = Xi, Yi = Xi 一 Xi, i= 2,3,…,n. 记 
X= (和 2 Xa), Y = (7, 7 Yo) 
(1 若 Cov(X) = 了 其 中 了 是 n 阶 单位 阵 ， 求 Cov(Y); 
(2) 车 Cov(Y) = 了 求 Cov(X). 
3.2 (1) 设 X 和 Y 为 具有 相同 方差 的 任意 两 个 随机 变量 ， 证 明 


Cov(X+Y, X-Y)=0. 


(2) 设 Xnx1, Ymx1 均 为 随机 向 量 ，Cov(X) > 0( 即 Cov(X) 是 正定 阵 ), 求 常数 矩阵 4nxm， 
使 得 
Cov(X, Y — AX)=0. 
(3) 利用 (1) 和 (2), 试 构造 例子 说 明 不 相关 的 随机 变量 或 向 量 不 一 定 相互 独立 . 
3.3 设 义 ~ Na(wZ), 其 密度 函数 为 


flenes) = kt exp { -BQ(en,22))}, 


这 里 Q(zu zz) = z? 十 223 一 21z2 一 3z1 一 2z2 十 4, 求 和 区 

3.4 设 随机 变量 X!，,…, Xn 相互 独立 ， 具 有 公共 的 均值 上 和 方差 o?. 

(有 ) 定义 下 = 和 一 Xi 1…,n 一 1. 证明 Xi 均值 为 0, 方差 为 252. 

(2) 定义 @= (XX 一 2)? 十 … 十 (Xn-1 一 Xn)”, 求 BE(Q@). 

3.5 证 明 推论 3.3.2. 

3.6 设 和 ~ Nn(0,1), 令 U= AX,V= BX, W = CX, 这 里 A, B,C 皆 为 > xm 和 矩阵， 
且 秩 为 ", 着 Cov(U,V) = Cov(U,W) = 0. 证 明 U 与 V+W 独立 

37 记 入 =XX+Y ,22 =X 一 Y 设 和 4,2 为 独立 正 态 变量 ， 试 证 明 X 和 Y 也 是 正 态 
变量 . 

3.8 设 线性 模型 Y= XB+e， E(e) = 0,Cov(e) = o?V, 若 要 Y'AY 为 o? 的 无 偏 估计 (A 
是 非 随机 矩阵 )，4 应 满足 什么 条 件 ? 

3.9 设 X~ Naz(0,2),2 = (ci), 证明 


XP"X.— Xo ~ 


其 中 天 = (Xi,X2). 
3.10 设 壬 ~ Ns(0, 工 ), 其 中 
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确定 p 的 值 ， 使 得 X1 + X2 + Xs 与 Xi 一 X2 一 Xs 相互 独立 . 
3.11 设 X' = (Xi X2, Xa,X4) ~ Na(0, 14), 证 明 Q = XX1X2 一 XsaXa 不 服从 x? 分 布 . 
3.12 设 和 ~ xf ,证 明 X 的 特征 函数 为 

tiA 


1— 2it) "/? 
全- 


和 


3.13 设 入 ,Xo,.…, Xn 相互 独立， 且 者 服从 N(0,c?), 证 明 各 = 上 了)Xi 与 Q = 


这 
末 (Xi - Xini) 独立 . 
扎 
3.14 设 X~ Np(p,1), 证明 AX 与 BX 相互 独立 <> 4B' =0. 
3.15 设 XX~ NoDQ =X4X, Qs = XIBX, 若 Qi 与 Q2 独立 , 且 A4>0,B>0, 
则 4B=0. 
3.16 设 针 ~ Np(p,2), 证 明 : 
(D E(X -1)?=0, 
(2) Cov(X, X'AX) = 27Ap. 
3.17 设 Xa,.…， Xn 为 来 自 No(p 区 ) 的 随机 样本 ， 台 = 工 》 Xi . 
‘1 
(1D) 求 双 的 分 布 ， 
(2) 证 明 Cov(X: -又 ,又 ) =0. 
1 亡 
(3) 证 明 EE (去 和 06 -TX — 也 ) = 也. 
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在 线性 模型 参数 估计 理论 与 方法 中 , 最 小 二 乘法 占有 中 心 的 基础 地 位 . 它 始 于 
9 世纪 初叶 ， 是 由 著名 数学 家 Legendre 和 Gauss 分 别 于 1805 年 和 1809 年 独立 提 
出 的 . 接着 在 1900 年 Markov 证 明了 最 小 二 乘 估计 的 一 种 优良 性 ， 这 就 是 我 们 现 
在 所 说 的 Gauss-Markov 定理 ， 从 而 英 定 了 最 小 二 乘法 在 线性 模型 参数 估计 理论 中 
的 地 位 . 
本 章 将 系统 讨论 有 关 最 小 二 乘 估计 的 基础 理论 , 关于 它 的 最 新 发 展 , 读者 可 参 
阅 文献 [28]. 


上 


84.1 最 小 二 乘 估计 
我 们 讨论 线性 模型 
y=XB+e, Ee)=0, Cov(e)=c27 (4.1.1) 


的 参数 8 和 o? 的 估计 问题 ， 这 里 y 为 n x 1 观测 向 量 , X 为 n xp 的 设计 和 矩阵, 8 
为 px 1 未 知 参数 向 量 , e 为 随机 误差 , 2 为 误差 方差 , o? > 0. 如 果 zk(X) = < p， 
称 (4.1.1) 为 降 秩 线性 模型 ， 否 则 ， 称 为 满 秩 线性 模型 . 我 们 先 讨论 B 的 估计 问题 . 

获得 参数 向 量 的 估计 的 基本 方法 是 最 小 二 乘法 ， 其 思想 是 , 8 的 真 值 应 该 使 误 
差 向 量 e =y 一 XB 达到 最 小 ， 也 就 是 它 的 长 度 平方 


Q(B)= llel? = lly— XB = (y— XB)'(y — XB) 
达到 最 小 ， 因 此 ， 我 们 应 该 通过 求 8(B) 的 最 小 值 来 求 8 的 估计 注意 到 
Q(B) = yy -2 XB + BX'XB, 
利用 矩阵 微 商 公式 ( 见 第 二 章 ) 


3 X'y, Ee” 2X'Xp, 
90(8) __ yi ,ox 
-= XYy+2X'Xp. 
令 其 等 于 0, 得 到 
X'XB = X'y, (4.1.2) 


称 之 为 正则 方程 . 
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因为 向 量 X'y e M(X') = M(X'X), 于 是 正则 方程 (4.1.2) 是 相 容 的 .根据 定 
理 2.2.3, 正则 方程 (4.1.2) 的 解 为 


B= (XX)-X'y, (4.1.3) 


这 里 (X'X)- 是 X'X 的 任意 一 个 广义 北 . 
根据 函数 极 值 理论 ， 我 们 知道 只 是 函数 8(8) 的 驻 点 . 我们 还 需 证 明 它 确实 
使 Q(6) 达到 最 小 ， 事实 上 ， 对 任意 一 个 6， 


Q(B8) = ly ~ XP? = lly — XB+ XB— BN 
= lly— XP? + (BB)X'X(HB— 6)+2(B— 8)'X'(y— XA). 


因为 启 满 足 正则 方程 (4.1.2), 于 是 上 式 第 三 项 为 0, 而 第 二 项 总 是 非 负 的 ， 于 是 
Q@(9)>l 必 -Xp = Q(B). (4.1.4) 


此 式 表明 ， 局 确 使 8(B) 达到 最 小 . 

现在 我 们 再 进一步 证 明 ， 使 Q(B) 达到 最 小 的 必 是 BF. 事实 上 ， (4.1.4) 等 号 成 
立 ， 当 且 仅 当 

(8- BYX'X(B -Bp)=0, 
等 价 地 
X(8- 有) = 0. 
不 难 证 明 ， 上 式 又 等 价 于 
X'XB = XXP = X'y, 

这 就 证 明了 ， 使 8(8) 达到 最 小 值 的 点 必 为 正则 方程 的 解 B= (X'X)-X'y. 

车 永 (X)=p, 则 XX 可逆, 这 时 ，B= (XiX)-1X'y, 且 有 ( 辣 =6, 即 久 是 
有 的 无 偏 估计 . 这 时 , 我 们 称 = (X'X)-1X'y 为 8 的 最 小 二 乘 估计 (least squares 
estimate, 简 记 为 LS 估计 ). 

若水 (X) < p, 则 E(B) 关 有, 即 B 不 是 B 的 无 偏 估计 ， 更 进一步 ， 此 时 根本 
不 存在 8 的 线性 无 偏 估计 ， 事实 上 ， 若 存在 p x n 矩阵 4, 使 得 Ay 为 8 的 线性 
无 偏 估计 ， 即 要 求 B(4y) = 4XB = B, 对 一 切 6 成 立 . 必 存 在 4X = I. 但 因 
k(4X) < rk(X) <p= rk(15), 这 就 与 4X = I 相 矛 盾 . 因此 ， 这 样 的 矩阵 4 根本 
不 存在 ， 这 表明 当 永 (X) < p 时 ， 6 没有 线性 无 偏 估计 ， 此 时 我 们 称 8 是 不 可 估 
的 . 但 是 ， 退 一 步 ， 我 们 可 以 考虑 8 的 线性 组 合 5, 这 就 导致 了 可 估 的 定义 ， 

定义 4.1.1 ”车 存在 nx1 向 量 a, 使 得 BE(a'y) =c6 对 一 切 B 成立 则 称 8 
是 可 估 函 数 (estimable function). 
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定理 4.1.1 cB8 是 可 估 函 数 > cE M(X'). 

证 明 ”cB 是 可 估 函 数 < 存在 anx1, 使 得 E(a'y) = cB, 对 一 切 6 成 立 
< 0XB8 =c6, 对 一 切 5 成立 > c=X'a. 证 毕 . 

这 个 定理 告诉 我 们 ， 使 "8 可 估 的 全 体 p x 1 向 量 构成 子 空间 M(X'). 于 
是 ， 若 cueca 为 px1 向 量 ， 使 8 和 o%8 均 可 估 ， 那 么 ， 对 任意 两 个 数 ar, az, 线 
性 组 合 aa .ciB + az :的 8 都 是 可 估 的 . 车 cl 和 cz 为 线性 无 关 ， 则 称 可 估 函 数 dB 
和 c&6 是 线性 无 关 的 . 显然 ,对 于 一 个 线性 模型 ， 线 性 无 关 的 可 估 函 数组 最 多 含有 
rk(X) = r 个 可 信函 数 ， 另 外 ， 对 于 任 一 可 信函 数 ，c 从 与 (X'X)- 的 选择 无 关 ， 
是 惟一 的 ， 事 实 上 ， 由 cp 的 可 估 性 ， 知 存在 向 量 anxi, 使 得 c = X'a, 于 是 


cB=e(XK) XY=a XXKX) XY = aX(XX)+X'y. 
这 里 利用 了 X(X'X)-X' 与 广义 逆 (X'X)- 选择 无 关 ， 故 c 合 也 与 (X'X)- 的 选择 
无 关 ， 此 时 还 有 B(cD) = a'X(X'X)-X'XB = a'XB = cp, 即 cB 为 cB 的 无 偏 估 
计 . 于是， 我 们 给 出 如 下 定义 . 
定义 4.1.2 ”对 可 信函 数 8 , 称 为 cb 的 LS 估计 . 
对 于 线性 模型 (4.1.1), 记 X = (z1,… ,zn)', 则 这 个 模型 的 分 量 形式 为 


m=aBte, i=ln, (4.1.5) 
0, i 


02， 一 小 


Elei)=0, Cov(e,e;)= { 


再 记 pi = zB, k= (p10…,pn)' = 二 XB = EE(y), 即 为 观测 向 量 y 的 均值 向 量 ， 它 
是 nn 个 可 信函 数 ， 但 其 中 只 有 = rk(X) 个 是 线性 无 关 的 . 
上 的 LS 估计 为 


R= XB=X(XX)-X'Xy = Px y, (4.1.6) 


这 里 Px = X(X'X)-X' 是 向 M(X) 上 的 正 交 投影 阵 . 可见 均 值 向 量 的 LS 估计 
就 是 y 向 M(X') 上 的 正 交 投影 

对 任 一 可 估 函 数 5, 虽然 它 的 LS 估计 cB 是 惟一 的 但 是 它 可 能 有 很 多 个 线 
性 无 偏 估计 . 事实 上 ， 若 记 M(X)+ 为 M(X) 的 正 交 补 空间 . 设 wy 为 6 的 一 
个 无 偏 估计 ， 那 么 对 任意 ps M(X)+，(a + by 也 是 eB 的 一 个 无 偏 估计 ， 此 因 
Be+bgy= EB(a'y) + E(Vy) = cB+WVX'B = cp. 这 样 一 来 ， 对 任意 线性 函数 c0， 
它 的 线性 无 偏 估计 的 个 数 有 三 种 情况 : (1) 一 个 也 没有 , 这 时 它 是 不 可 估 的 ; (2) 只 
有 一 个 ， 这 出 现在 水 (X) = n 的 情形 ， 因 为 此 时 AM(X)+ = 0; (3) 有 无 穷 多 个 . 
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当 c8 可 估 时 ， 在 其 线性 无 偏 估计 当中 ， 方 差 最 小 者 称 为 最 佳 线性 无 偏 估计 (best 
linear unbiased estimate) 以 下 简 记 为 BLU 估计 . 下面 的 定理 表明 ， LS 估计 就 是 
BLU 估计 . 

定理 4.1.2(Gauss-Markov 定理 ) ”对 任意 的 可 估 函 数 cP,LS 估计 oc 从 为 其 惟 
一 的 BLU 估计 . 

证 明 前面 已 证 eA 为 cB 的 无 偏 估计 ,而 线性 性 是 显然 的 . 现 证 cB 的 方差 
最 小 . 首先 

Var(eB) = Var(e(X'X)-X'y) = 0 (XX)-XX(XX)-e. 


由 c6 的 可 估 性 , 知 存在 向 量 wwxl, 使 得 c = X'a, 于 是 , 利用 X'X(X'X)-X' = XX 
得 到 
Var(c 同 = o2c(X'X)- XX(XX)- XG = gre (XX)-e. 
另 一 方面 ， 设 a'y 为 c8 的 任 一 无 偏 估计 ， 于 是 a 满足 : X'a = c. 这 样 
Var(a'y) — Var(eB) = o?[a'a ~ ce'(X'X)-d)] 
= ao?(o' —e(X'X)-X)(a— X(XX)-e) 
= oe — X(X'X)-cll? > 0, 


并 且 等 号 成 立 > 0 = c(X'X)-X' <=> ay = eK. 定理 证 毕 . 

这 个 重要 的 定理 莫 定 了 LS 估计 在 线性 模型 参数 估计 理论 中 的 地 位 . 由 于 它 所 
刻画 的 LS 估计 在 线性 无 偏 估计 类 中 的 最 优 性 ， 使 得 人 们 长 期 以 来 把 LS 估计 当 作 
线性 模型 (4.1.1) 的 惟一 最 好 的 估计 . 但 是 , 到 了 20 世纪 60 年 代 , 许多 研究 表明 ， 
在 一 些 情况 下 LS 估计 的 性 质 并 不 很 好 . 如 果 采 用 另外 一 个 度量 估计 优 劣 的 标准 ， 
LS 估计 并 不 一 定 是 最 优 的 ， 这 些 将 留 在 第 六 章 详细 讨论 ， 

推论 41 设 区 = cp,i= 1 外 都 是 可 估 函 数 ， Qi = 1,… ,kk 是 实数 ， 
则 沁 = 立 qiWi 也 是 可 估 的 ， 且 攻 = aiBi = 加 aicB 是 少 的 BLU 估计 . 


推论 4.1.2 设 c6 和 dB 是 两 个 可 信和 函数 出 


Var(eB) = o2c(XX)-e (4.1.7) 
Cov(eB, dB) = o?e'(X'X)-d, (4.1.8) 
并 且 上 述 两 式 与 所 含 广义 逆 的 选择 无 关 . 


这 两 个 推论 的 证 明 也 不 困难 ， 留 给 读者 完成 . 
现在 我 们 讨论 误差 方差 o? 的 估计 . 记 


E=y~ XP= (I Px)y, (4.1.9) 
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称 2 为 残 差 向 量 . 它 作为 误差 向 量 的 一 个 “估计 ”， 对 研究 关于 误差 假设 的 合理 性 
起 着 重要 作用 .容易 证 明 ， 残 差 向 量 E 满足 E(a) = 0,Cov(@) = o?(T ~ Px). 基于 
我 们 可 以 构造 o? 的 如 下 估计 


2 ee _ 必 -Xp 
2= 


n-r nr 


(4.1.10) 


这 里 = zk(X). 
定理 4.1.3 ”252 是 o? 的 无 偏 估计 . 
证 明 因 了 -Px 为 蜂 等 阵 ， 于 是 


ee2=y(I— Px)y, 
利用 定理 3.2.1 
Bee) = (XB)(I — Px)XB + tr(T — Px)Cov(y) = o?tr(T — Px), 
这 里 利用 了 (7 一 Px)X = 0. 利用 迹 和 吞 等 阵 的 性 质 
(Be) = o?In ~ tr(Px)] = om ~ rk(X)], 


明 所 欲 证 . 

为 方便 计 ， 通 常 也 称 52 为 o? 的 LS 估计 . 

对 于 线性 模型 (4.1.1), 若 我 们 进一步 假设 误差 向 量 。 服从 多 元 正 态 分 布 ， 则 称 
相应 的 模型 为 正 态 线性 模型 ， 记 为 


y= XB+e, e~N(0,o?7). (4.1.11) 


下 面 我 们 研究 在 这 个 模型 下 ， LS 估计 的 性 质 . 

定理 4.1.4 ”对 正 态 线性 模型 (4.1.11), 设 %6 为 任 一 可 估 函 数 ， 则 

(1) LS 估计 cB 是 cp 的 极 大 似 然 估计 (maximum likelihood estimate, 简 记 为 
ML 估计 ), 且 eB6 ~ N(e'B, ozc(X'X)-cj; 

(2) 三 92 为 0? 的 ML 估计 ， 且 33 Xi 

(3) eB 与 92 相互 独立 ， 
这 里 = (X'X)-X'yr = rk(X). 

证 明 记 4=XB, 考虑 4 和 o? 的 似 然 函 数 


1 i oy 
Ur re 
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取 对 数 ， 略 去 常数 项 ， 得 


n 1 
logL(p,0°)= 一 了 logo” be a52ly — pI- 


对 均值 向 量 /的 LS 估计 万 = XB, 我 们 有 


ly -al = lly ~ XBl? = minlly ~ XAIP = mip, lly — ll 


于 是 ， 对 每 一 个 固定 的 o?， 
log L(R,0?) > log L(p,07), 


而 
log ZL(P,c2) = -了 21log0? 一 zy — Rl 


在 5? = lly 一 有 ll? 达到 最 大 于 是 及 = XB 和 5? 分别 为 4 和 o? 的 ML 估计 . 

对 任 一 可 估 函 数 c8, 存在 a e R", 使 得 c= X'a. 于 是 ， co8 = a'XB = a'j， 
由 ML 估计 的 不 变性 ， c8 的 ML 估计 为 af, 注意 到 cB = aXB = o/h. 这 就 
证 明 LS 估计 eB 为 ML 估计 ， 又 因 c 启 = of(X'X)-X'y 为 y 的 线性 函数 ， 而 
y ~ Nn(XB,o?7), 依 定理 3.3.4 知 ，cB ~ N(c(X'X)-X'XB,o2c(X'X)-e), 但 由 
cB 的 可 估 性 ， 容 易 推出 o(X'X)-X'X = c', 于 是 (1) 得 证 . 

(2) 的 第 一 条 结论 已 证 .因为 PxX = XX, 所 以 

(nr _ ee _y(I- Px)y 

o?2 


= 2(I— Px)z, 


el z 三 e/g ~ Nn(0, 1). 由 了 Px 的 宕 等 性 及 rk(T - Px) = tr(T - Px) = 
一 tr(Px) =n 一 永 (X) =n 一 7, 利用 定理 3.4.3, 即 得 (n - >)52/c2 ~ x2_,. 

为 证 c8 与 8 的 独立 性 ， 只 要 注意 到 c 语 与 32 分 别 为 正 态 向 量 y 的 线性 型 和 
二 次 型 ,根据 定理 3.5.1 和 c(X'X)-X'(T- Px) = 0, 结论 可 直接 推 得 . 定理 证 毕 . 

从 这 个 定理 我 们 看 出 , 对 于 可 估 函 数 "6, 它 的 LS 估计 和 ML 估计 是 相同 的 . 
但 是 ， 对 于 误差 方差 "?, 两 者 就 不 同 了 . 它们 只 差 一 个 因子 ， 很 明显 ML 估计 52 
是 有 偏 的 ，EE(5?) = 于 ro? < o?, 即 在 平均 意义 上 讲 ， ML 估计 52 偏 小 . 

在 前 面 的 Guass-Markov 定理 中 ， 我 们 证 明了 可 估 函 数 cp 的 LS 估计 oF 在 
线性 无 偏 类 中 是 方差 最 小 的 ， 然 而 对 于 正 态 线性 模型 ， 我 们 有 下 面 更 强 的 结果 . 

定理 4.1.5 ”对 于 正 态 线性 模型 (4.1.11)， 

(五 =yy 和 Ts =X'y 为 完全 充分 统计 量 ， 
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(2) 对 任 一 可 估 函 数 c'6,c'B 为 其 惟一 的 最 小 方差 无 偏 估计 (minimum variance 
unbiased estimate, 简 记 为 MVU 估计 ). 
证 明 ”观测 向 量 y 的 概率 密度 函数 为 
1 
/0) = er op {Ht XB) -Xp)} 
1 1 
一 (nFo™ ep {Hy ay xp}， 


记 91 = -让 ,2 = 名 ,它们 是 所 谓 的 自然 参数 ， 则 上 式 可 改写 为 


1 i 
全) = eS exp{0.T + 672}. 


这 样 ， 我 们 把 f(y) 表 成 了 指数 族 的 自然 形式 ， 其 参数 空间 


和 
日 = 01<0, b€ Rry. 
02 


依 文 献 [25], p.59, 定理 2.2 知 ， Ti = yy 和 Ts = X'y 为 完全 充分 统计 量 . 

对 任 一 可 估 函 数 "6, 其 LS 估计 cB = co(X'X)-T, 误差 方差 c2 的 LS 估计 
2 = (1 一 T2(X'X)-T2)/(n 一 7), 它们 都 是 完全 充分 统计 量 的 函数 ， 同 时 我 们 知 
道 , 它们 都 是 无 偏 估计 ， 依 Lehmann-Scheffe 定理 (参见 文献 [25], p.58) 立即 推出 ， 
cB 和 ?分 别 是 cp 和 o2 的 惟一 MVU 估计 ， 定理 证 毕 . 

对 任 一 可 估 函 数 "8, 这 个 定理 和 Guass-Markov 定理 都 建立 了 它 的 LS 估计 c/ 合 
的 方差 最 小 性 , 两 者 的 区 别 在 于 , 本 定理 在 误差 服从 正 态 分 布 的 条 件 下 , 证 明了 LS 
估计 eB 在 所 有 的 (线性 的 和 非 线性 ) 无 偏 估计 类 中 方差 最 小 . 而 Guass-Markov 定 
理 只 证 明了 c' 人 在 线性 无 偏 类 中 方差 最 小 性 . 

例 4.1.1 设 /为 一 物体 的 重量 , 现 对 该 物体 测量 ”次 ,其 测量 值 记 为 如，… ,yn 
通常 我 们 用 了 = 于 z%/m 来 估计 必 现在 我 们 来 研究 估计 可 的 优良 性 . 

如 果 测量 过 程 没有 系统 误差 ， 则 % 可 表示 为 


i= p+ei, i=1,.,n. 
将 其 写成 线性 模型 的 矩阵 形式 


i 1 el 
=| : |a+ 
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假设 。= (et … en) 满足 Guass-Markov 假设 . 容易 计算 出 py 的 LS 估计 广 = 
(XX)- XY = > 4/n = 石 即 观测 值 的 算数 平均 值 为 物体 重量 / 的 LS 估计 .并 
且 从 Guass Markov 定理 我 们 知道 ， 在 y = (yi,…,yn)' 所 有 线性 函数 组 成 的 无 偏 
估计 类 中 ,5 具有 最 小 方差 . 如 果 我 们 进一步 假设 误差 服从 多 元 正 态 分 布 , 那么 在 
所 有 无 偏 估计 类 中 ， 仍然 具有 最 小 方差 . 这 些 结果 充分 显示 了 5 作为 py 的 估计 
的 优良 性 质 . 
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对 线性 模型 (4.1.1), 在 上 节 ， 我 们 导出 了 可 估 函 数 cB8 和 c2 的 没有 任何 附带 
约束 条 件 的 最 小 二 乘 估计 ,并 讨论 了 它们 的 基本 性 质 , 但 是 在 检验 问题 的 讨论 中 或 
其 它 一 些 场合 ， 我 们 需要 求 带 一 定 约束 条 件 的 最 小 二 乘 估计 . 

假设 

HB=d (4.2.1) 
是 一 个 相 容 线性 方程 组 , 其 中 五 为 xp 的 已 知 矩 阵 , 且 秩 为 M(H') C AM(X')， 
于 是 HB 是 上 个 线性 无 关 的 可 估 函 数 ，d 为 上 x1 已 知 向 量 ， 本 节 用 Lagrange 乘 
子 法 求 模型 (4.1.1) 满足 线性 约束 (4.2.1) 的 最 小 二 乘 估计 . 记 


H= : d= hs (4.2.2) 


则 线性 约束 (4.2.1) 可 以 改写 为 
MB=d, i=1,..,k. (4.2.3) 


我 们 的 问题 是 在 (4.2.3) 的 上 个 条 件 下 求 8 使 8(8) = Ily -XBIl? 达到 最 小 值 ， 为 
了 应 用 Lagrange 乘 子 法 ， 构 造 辅助 函数 


天 
FUBA) = lly — XB +2D Xi(MB 一 da) 


i=1 
= ly— XP +2XN (HB —d) 
= (y— XB)'(y— XB) +2M(HB— d), 
其 中 入 = (和 1,… ,和 %) 为 Lagrange 乘 子 ， 对 函数 F(6, 和) 求 对 8 的 偏 导数 ， 整 理 并 
令 它 们 等 于 零 ， 得 到 
X'XB = X'y— H'A. (4.2.4) 
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然后 求解 (4.2.4) 和 (4.2.1) 组 成 的 联 立方 程 组 ， 记 它们 的 解 为 By 和 Xn. 
因为 M(H') Cc AM(X), 所 以 (4.2.4) 关于 6 是 相 容 的 ， 其 解 
By =(X'X)-X'y— (XX)-Hhg = (XX)-H'Ay. (4.2.5) 
代入 (4.2.1) 得 
d= HBy = HB— H(X'X)-H'Ny, 
等 价 地 
H(X'X)-H'My = (HB — d). (4.2.6) 


这 是 一 个 关于 An 的 线性 方程 组 .因为 昌 的 秩 为 k, 上 且 M(H') Cc M(X'), 于 是 
HH(X'X)-H' 跟 所 包含 广义 北 的 选择 无 关 ， 故 可 证 它 是 k x 的 可 逆 矩 阵 ， 因 而 
(4.2.6) 有 惟一 解 

hn = (H(X'X)-H')-I(HB— d). 


将 Ar 代入 (4.2.5) 得 到 


Bur =PB-(X'X)-H'(H(X'X)H')-I(HA- d). (4.2.7) 
现在 我 们 证 明 Brr 确实 是 线性 约束 6 = d 下 6 的 最 小 二 乘 解 . 为 此 我 们 只 需 证 明 
如 下 两 点 : 
(a) HBn =d; 


(b) 对 一 切 满足 了 Bn = d 的 B, 都 有 
ly — XBl? 2 ly 一 无 到 要. 
根据 (4.2.7) 结论 (a) 是 很 容易 验证 的 . 为 了 证 明 (b), 我 们 将 平方 和 lly 一 Xp 
作 分 解 
ly ~ XB = lly — XB? + (B— BYX'X(B— B) 
= ly- XA +(B-By+Bs—p)'XXB- B+ By — p) 
= ly— XBl?+(B- Ba)'XX(B- Bu)+ (By ~ BYX'X(By -有 
= lly— XH? + 1X(B— Bo) + lxX(Bs — PN?. (4.2.8) 
这 里 我 们 利用 了 (4.2.5) 及 M(H') c M(X') 导出 的 下 述 关系 : 
(BG—Ba)'X'X(Bn -6)= XH(By -p)= VHBy ~ HB)= Nd d)=0. 
这 个 等 式 对 一 切 满足 8B = 4 的 8 都 成 立 . 
(4.2.8) 式 表明 ， 对 一 切 满足 HB = a 的 B, 总 有 


ly — XP? > Hy — XA + XB Ba), (4.2.9) 
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且 等 号 成 立 当 且 仅 当 (4.2.8) 式 的 第 三 项 等 于 零 , 也 就 是 XB = XBiz. 于 是 在 (4.2.9) 
中 用 X Br 代替 XB, 等 式 成 立 ， 即 
ly— XBalP = ly — XB + XB Br)l. (4.2.10) 
综合 (4.2.9) 和 (4.2.10), 便 证 明了 结论 (b). 
定理 4.2.1 ”对 于 线性 模型 (4.1.1), 设 五 为 xp 矩阵，rk(H) =k, M(H') C 
AM(X"), 且 6 = d 相 容 ， 则 
(1) Br=B-(X'X)-H'(H(X'X)-H')-1(HB-d) 为 B 在 线性 约束 条 件 HB=d 
下 的 约束 LS 解 ， HB 为 HB 的 约束 LS 估计 ， 这 里 序 = (XX)-X'y. 
(2) 车 开 (X)=p, 则 Bn =B-(X'X)-1H(H(X'X)-1H')-1(HB--4d) 为 8 的 
约束 LS 估计 ， 这 里 = (X'X)-1X'y. 
例 4.2.1 ”在 天 文 测量 中 ， 对 天 空中 三 个 星 位 点 构成 的 三 角形 4BC 的 三 个 内 
角 91,02,6s 进行 测量 ， 得 到 的 测量 值 分 别 为 v1,yo,ys, 由 于 存在 测量 误差 ， 所 以 需 
对 它们 进行 估计 ， 利 用 线性 模型 表示 有 关 的 量 ， 
N= +el, 
y2 = 02+e2, 
Ys = 03 十 es， 
01+02+03=7, 


其 中 ei,i = 1,2,3 表示 测量 误差 .假设 它们 满足 Guass-Markov 假设 ， 这 就 是 一 个 
带 有 约束 条 件 的 线性 模型 ， 将 它 写成 矩阵 形式 


y= XB+e, 
| HB =b, 
其 中 y = (yi,y2,ys)', B = (01,92,03)'， X = Is, 及 表示 3 阶 单位 阵 ， 互 = (1,1,1)'， 
b= 三 x. 利用 定理 4.2.1 可 得 到 B 的 约束 最 小 二 乘 估计 为 
f=B- (XX)-H(H(X'X)-H')-1(HB -ob), 
其 中 = (X'X)-1X'y 是 有 的 无 约束 最 小 二 乘 估计 ， 经 计算 可 得 


Yi 二 
B=| w |-3(Pu-7)|1 |, 
i=1 


ys 1 
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即 鲍 =i 一 革 (1 十 妨 十 奴 一 ,i 二 1,2,3 为 0; 的 约束 最 小 二 乘 估 计 . 
和 上 节 类 似 ， 我 们 可 以 构造 o? 的 约束 LS 估计 如 下 ， 


32, = ly XB 
Hn-rtk 


定理 4.2.2 ”在 定理 4.2.1 假设 下 ， 在 参数 区 域 HB = 4 上， 是 o? 的 无 偏 
估计 . 
证 明 由 (4.2.10), 得 


Blly— XB = Elly — XB + EIX(B — Ba). (4.2.11) 
由 上 节 知 Blly - XBIl? = (nr)o?. 对 上 式 第 二 项 应 用 定理 3.2.1, 得 


EIIX(B — Bun) 
= E(HB -ad)/(H(X'X)-H')-!(HA -d) 
= (HB -dd)(H(X'X)-H') (HB -qd)+trl(H(X'X)-H')-!Cov(HA] 
= 6+tr(o21:) 
= 6+ko?, 


这 里 6 = (HB 一 d)(H(X'X)~H')-1(HB 一 d). 于 是 我 们 证 明了 
EIX(B- Bua) = (n—r—k)o?+6. 


显然 ， 在 参数 区 域 HB = d 上 ， 5 = 0. 定理 证 毕 . 
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到 目前 为 止 ， 我 们 的 讨论 都 假定 误差 协 方差 阵 为 c27 的 情形 . 但 是 ， 客 观 上 存 
在 着 许多 线性 模型 ， 其 误差 协 方差 阵 具有 形式 22, 并且 上 往往 包含 未 知 参数 . 暂 
时 我 们 先 假设 三 是 已 知 正定 方 阵 , o? 为 未 知 参数 ， 于 是 本 节 讨论 线性 模型 : 


y=XB+e, Ee)=0, Cov(e)=0’E (4.3.1) 


的 参数 6, o? 的 估计 问题 ， 其 中 2 > 0. 


因为 假设 了 允 > 0, 故 存在 惟一 的 正定 对 称 阵 3+. 用 -+ 左 乘 (4.3.1), 并 记 
六 = 了 = IX, w= Pte, 则 得 到 


Y=XB+u, ElW)=0, Cov(u)=o27, (4.3.2) 
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这 就 化 为 以 前 讨论 过 的 情形 了 . 
对 模型 (4.3.2) 用 最 小 二 乘法 求 6 的 LS 解 ， 即 解 CQ(6) = | 了 5 一文 BIl? 的 最 小 值 
问题 ， 等 价 地 ， 解 


min Q(B) = min (y — XA) 1(y — XB). (4.3.3) 
正则 方程 组 为 
XT IXP = XP!y, (4.3.4) 
于 是 ， 有 8 的 LS 解 为 
= (XTX)- XT 1y, (4.3.5) 


称 为 广义 最 小 二 乘 解 . 特别 ， 当 卫 = diag(o?,… ,02), 02, i = 1,…,n 已 知 时 ， 称 
厅 为 加 权 最 小 二 乘 解 . 因为 (4.3.1) 和 以 前 讨论 的 模型 只 是 误差 协 方差 阵 不 同 ， 而 
线性 函数 "8 的 可 估 性 又 与 协 方差 阵 无 关 ， 于 是 ， 对 模型 (4.3.1),c"8 可 估 的 充 要 条 
件 仍 为 ce M(X'), 我 们 称 cB* 为 可 估 函 数 "6 的 广义 最 小 二 乘 估 计 (generalized 
least squares estimate), 简 记 为 GLS 估计 . 对 应 地 ， 当 忆 为 对 角 阵 时 ， 称 cB* 为 可 
佑 函数 c8 的 加 权 最 小 二 乘 估计 (weighted least squares estimate), 简 记 为 WLS 估 
计 , 当 开 (Xnxp) = 了 时 ，B 可 估 ， 称 8* 为 8 的 GLS 估计 因为 导出 (4.3.5) 的 方 
法 是 由 Aitken(1934) 首先 提出 的 ， 所 以 文献 中 也 称 6* 和 B* 为 Aitken 估计 ， 对 
应 于 Gauss-Markov 定理 ， 我 们 有 

定理 4.3.1 ”对 任 一 可 估 函 数 cB，c'8" 为 其 惟一 的 BLU 估计 ， 其 方差 为 
o20(X'D-1X)-e. 

证 明 因为 cE M(X') = M(X'T-1X), 故 存在 向 量 a 使 得 c = X' DZ-IXa. 
于 是 


Var(eB*) = og?c(X'E-1X)- XT~1X(X'D-1X)-e 

= oie(X'D1X)-e. 

设 a'y 为 cp 的 任 一 无 偏 估计 ， 则 c= X'oa, 故 
Var(a'y) — Var(c'B*) = o?(a'Da — c(X'T-1X)-e) 
= g(aFa— a X(XD- IX)-X'a) 

2(b'b — b'Q(Q'Q) OQ'b) 
ab- Pa)b > 0, 
其 中 5b= 1/?4,8 = 了 -12X, Po = Q(Q'Q)-Q'. 这 就 证 明了 cB* 的 方差 最 小 性 ， 


上 式 等 号 成 立 < (一 Po) = 0 < 二 0 = Pob a= ET-1X(X'D-1X)-c 一 
a'y 二 08*. 惟一 性 得 证 . cB* 的 无 偏 性 是 显然 的 ， 定 理 证 毕 . 
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根据 GLS 解 8", 我 们 可 以 给 出 o? 的 无 偏 估计 ， 记 
er =y— Xp* = 一 大 CCD-IX)-IX'D-I = Di (7- Pjx)D 
称 为 残 差 向 量 ， 容易 证 明 
Ele’) =0, 
Cov(e’) =0251 (7— Rp jr 


记 r = rk(X), 定 义 
A 


人 -Xp -Xp /= 生 二 全 . 


类 似 于 定理 4.1.3, 定理 4.1.4 和 定理 4.1.5, 可 以 证 明 

定理 4.3.2 ”2?” 为 o? 的 无 偏 估计 . 

定理 4.3.3 ” 设 e~ N(0,c22), 2(> 0) 已 知 ， 则 

(1) 对 任 一 可 估 函 数 op, 8* 为 cB 的 ML 估计 , 上 且 cp* ~ N(cB， czc(X'3-1 
从 ) co 

(2) 号 5o2” 为 oz 的 ML 估计 ， 且 (一 r)o2*1o2 wx2 

(3) cB" 与 o2” 相互 独立 ; 

(4) 当 水 (Xnxp) =p 时 ，B" 为 的 ML 估计 ，p* ~ N(B,o?(X'2-1X)-!), 且 
与 o2” 相互 独立 ; 

(5) 车 6 可 估 ， 则 cB* 为 其 惟一 MVU 估计 ; 

(6) c2” 为 o? 的 惟一 MVU 估计 . 

如 果 我 们 忽略 Cov(e) = c2?2 关 o27. 而 按 以 前 的 Cov(e) = c27 情形 来 处 理 ， 
这 就 导致 了 LS 解 (X'X)-X'y, 这 样 一 来 ， 对 任 一 可 估 函 数 "6, 我 们 就 有 了 两 个 估 
计 ， LS 估计 信和 GLS 估计 cp", 两 者 都 是 无 偏 估计 ， 而 后 者 是 BLU 估计 ， 一 
般 来 说 ， < 全 关 c6*, 即 LS 估计 和 BLU 估计 不 一 定 相等 ， 这 是 和 Cov(e) = c27 情 
形 所 不 同 的 ， 特 别 ， 当 tk(Xnxp) =p 时 ，B 的 LS 估计 = (X'X)-X'y, 而 GLS 
估计 床 = (XIX) 31 它们 都 是 8 的 无 偏 估计 ， 但 协 方差 阵 分 别 为 

Cov(6") = o2(X'D-IX)-1， 
Cov(B) = 02(X'X)-1X'TX(XX)1. 


根据 定理 4.3.1, 立即 可 推 得 Cov(8) > Cov(8*), 即 
(XX) XTXXX)! > (XPTX)1. 


这 里 4> 昌 意 为 4 BB>0, 此 式 表 明 p* 优 于 后 
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例 4.3.1 ”假设 我 们 用 一 种 精密 仪器 在 两 个 实验 室 对 同一 个 量 / 分 别 进行 了 
ni 和 ma 次 测量 ， 记 这 些 测量 值 分 别 为 1,… ,yin, 和 yi …,yam: 把 它们 写成 线 
性 模型 形式 为 


Yi= p+en, 


Yai = H+ ezi, 


由 于 两 个 实验 室 的 客观 条 件 及 精密 仪器 的 精度 不 同 ， 故 它们 的 测量 误差 的 方差 不 


等 . 设 Var(eli) = of,Var(ezi) = 03, 且 of #03. 记 e= (ea ,eine ,eon)’, 


则 
41, 0 or， 0 
Cov(e) = a 一 = cz， 
0 oo2n, 0 1, 


这 里 了 = diag(91n,,1ws),9 = oz/o3. 假设 9 已 知 ， 则 荆 已 知 ， 于 是 4 的 广义 最 小 


二 乘 估计 x 
Vi ns 
六 = (全 +m) 名 = 
i=1 
站 ns 
Hh= We = oy 
mE ne 3 
|! n1 1 n2 
的 二 a = 
Var() ot Var( 2) 0o2 
则 pr* 可 改写 为 
而 1 DD | 
wtw! w to 


即 必 是 两 个 实验 室 观 测 值 均值 的 加 权 平均 , 它们 的 权 wf/ (wi + wz) 和 wa/(wi 十 wo) 
与 各 实验 室 测量 的 误差 方差 和 测量 次 数 有 关 ， 误差 方差 大 的 ,测量 次 数 少 的 ， 对 应 
的 权 就 小 . 

当然 ， pv* 包含 未 知 参数 "cz 和 03, 因此 它 不 能 付 诸 实际 应 用 ， 然 而 对 现在 的 
情形 ， 我 们 可 以 设法 构造 cz 和 o3 的 估计 ， 事实 上 ， 这 两 个 实验 室 的 观测 数据 分 
别 构成 线性 模型 

= pln; + ei i=1,2, 

这 里 yi = (5 ,Vins) ,1n, 为 nix1 的 向 量 ,其 所 有 元 素 皆 为 1. e; = (ei;,… ,ern,)， 
因为 Cov(ei) = o?In, 所 以 ei, i = 1,2 都 满足 Guass-Markov 条 件 .应 用 §4.1 结 
果 ， 可 得 到 o? 的 LS 估计 


区 二 


1 wr 
We -ily - 15», 
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用 守 代替 中 的 o2, 得 到 新 估计 记 为 声称 为 4 的 两 步 估 计 (two-stage estimate). 
产 不 再 包含 任何 未 知 参 数 ， 是 一 种 可 行 估计 (feasiable estimate). 关于 这 类 估计 的 
统计 性 质 将 在 84.7 讨论 . 


84.4 最 小 二 乘 统 一 理论 


对 于 线性 模型 
4y=X6+e，P(e)= 0, Cov(e) = o22， (4.4.1) 


如 果 |2 = 0, 则 称 该 模型 为 奇异 线性 模型 对 于 这 样 的 模型 ,因为 2~! 不 存在 所 
以 我 们 不 能 通过 最 小 化 (4.3.3) 所 定义 的 Q(B) 来 求 得 8 的 最 小 二 乘 估计 ， 20 世纪 
60 年 代 以 来 ， 许 多 统计 学 家 研究 了 这 种 模型 的 参数 估计 ， 提 出 了 几 种 估计 方法 . 
在 这 些 估计 方法 中 ， 著 名 统计 学 家 Rao 应 用 推广 的 最 小 二 乘法 所 导出 的 估计 以 其 
形式 简单 便于 理论 研究 而 得 到 普遍 采用 .本 节 的 目的 是 讨论 这 个 方法 . 

对 于 奇异 线性 模型 ， 因 为 2-: 不 存在 ， 于 是 (4.3.3) 的 Q(B) 无 定义 ， 如 果 用 
任 一 广义 逆 允 -代替 271, 把 Q(B) 定义 为 Q(B) = (y 一 XB)'2-(y 一 XB), 因为 这 样 
的 Q(B) 与 所 含 的 广义 逆 2- 有 关 ， 取 不 同 的 广义 逆 得 到 不 同 的 Q(B), 因而 (4.3.3) 
失去 意义 ， 于 是 对 于 奇异 线性 模型 ， 一 个 核心 的 问题 是 寻找 一 个 新 矩阵 了 , 它 能 够 
充当 (4.3.3) 中 2-! 所 担负 的 作用 . Raotsel 成 功 地 解决 了 这 个 问题 ， 他 定义 


T=2D+XUX’ 其 中 U20, zk(T)=rk(2:X), (4.4.2) 
然后 定义 
Q(B8) = (y— XB)T (y— XB). (4.4.3) 
用 最 小 化 Q(B) 求 出 最 小 值 点 
p=(XT XW: (4.4.4) 


后 面 我 们 将 证 明 ， 对 任 一 可 估 函 数 eB,c'8* 为 其 BLU 估计 . 这 个 结论 既 适用 于 设 
计 阵 X 列 满 秩 或 列 降 秩 的 情形 ， 又 适用 于 了 奇异 或 非 奇 异 的 情形 ， 正 是 由 于 这 个 
原因 ， 通 常 把 这 个 结果 称 为 最 小 二 乘 统 一 理论 ， 参 见 文献 [86]. 

在 了 的 定义 中 ， 包 含 一 个 可 以 选择 的 半 正 定 阵 U. 事实 上 满足 条 件 的 方 阵 UU 
是 很 多 的 ， 例 如 ， 一 个 简单 的 选择 是 UV = 万 , 这 是 因为 等 式 


Tk(Z+XX') = rk(D :xX) 


对 一 切 忆 和 X 都 成 立 ， 另 外， 当 允 > 0 时 ， 可 取 避 = 0, 此 时 了 = 2， (4.4.4) 就 变 
成 了 (4.3.5). 为 了 证 明 cb* 为 c8 的 BLU 估计 ， 先 证 明 几 个 预备 事实 . 
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引 理 4.4.1 ”对 于 线性 模型 (4.4.1), 不 管 > 0 或 了 > 0,ye KM(2 ;XI) 总 是 
成 立 . 

证 明 因为 区 >0, 将 工分 解 为 可 = LL 这 里 工 为 nxt 和 矩阵 ，t=:k(2) = 
Tk(L). 记 e= Le,E(e) = 0,Cov(e) =o?1, 则 y 可 表 为 如 下 新 线性 模型 的 形式 : 


y= XA+Le, E(e) =0, Cov(e) = o?1,, 


于 是 ye M(X : 厂 ). 再 利用 M(L) = M(LL') = A(2), 结论 得 证 . 

引 理 4.4.2 ”对 (4.4.2) 所 定义 的 T, 总 有 

(1) M(T) = NM(Z : X). 

(2) X'T-X,X'T-y 和 (y 一 XB)T-(y 一 XB) 都 与 广义 逆 了- 的 选择 无 关 . 

证 明 (1) 是 (4.4.2) 的 直接 推论 . 因为 ye M(T), M(X) c M(T),y 一 XB e 
AM(T), 再 利用 事实 : 若 M(4) c M(B), 则 4'B-4 与 B- 的 选择 无 关 ， 便 可 证 得 
(2), 引 理 证 毕 . 

这 个 推论 表明 ， (4.4.3) 所 定义 的 Q(B) 与 所 含 的 广义 道人 的 选择 无 关 ， 同时 
也 可 以 证 明 ， 对 任 一 可 估 函 数 cB,cB* = c(X'T-X)-X'T-y 也 与 所 含 的 广义 道 的 

引 理 4.4.3 ”对 于 线性 模型 (4.4.1), 可 估 函 数 c8 的 一 个 无 偏 估计 a'y 为 BLU 
估计 ， 当 且 仅 当 它 满足 

Cov(a'y, b'y) = 0, 

这 里 by 为 零 的 任 一 无 偏 估计 ， 即 E(b'y) = 0. 

证 明 设 Ly 为 cB 的 任 一 无 偏 估计 ， 则 1 一 定 可 表示 为 != a+b, 对 某 个 满 
足 X%b=0 的 5b. 于 是 


Var(l'y) = Var(a'y) + Var(b'y) + Cov(a'y, b'y). (4.4.5) 


由 (4.4.5), 充分 性 部 分 得 证 . 

下 面 用 反 证 法 来 证 明 必要 性 . 设 wy 为 eB 的 BLU 估计 . 若 存 在 一 个 bo, 满足 
X'bo = 0, 但 有 Cov(a'y, by) = d 关 0, 不 妨 设 4 < 0. 若 不 然 ， 只 需 取 -bo 代替 bo， 
就 可 化 为 4 < 0 的 情形 ， 用 5b = ato 代替 (4.4.5) 中 的 如 则 (4.4.5) 为 a 的 二 次 三 
项 式 ， 且 一 次 项 为 负数 ， 故 必 存 在 ao 使 此 二 次 三 项 式 的 后 面 两 项 之 和 取 负 值 ， 取 
lo=a+aobo, 必 有 

Var(loy) < Var(a'y), 
这 与 a'y 为 BLU 估计 相 矛 盾 ， 引 理 得 证 . 
现在 证 明 如 下 重要 定理 . 
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定理 4.4.1 ”对 于 线性 模型 (4.4.1) 和 任 一 可 估 函 数 6 有 
(1) cp* = c(XT-X)-XT-Y 为 8 的 BLU 估计 ， 
(2) Var(e'B*) = cze[CXT-X)- — Ule. 
证 明 (1) 由 c8 的 可 估 性 ， 知 存在 n x 1 的 向 量 t, 使 得 co = tX， 利用 
X(X'T-X)-X'T-X=X, 于 是 
E(cp*) =tX(X'T-X)-X'T-XB = XB = cp， 
无 偏 性 得 证 . 以 下 我 们 应 用 引 理 4.4.3 来 证 明 c/8* 在 线性 无 偏 估计 类 中 是 方差 最 小 
的 . 对 任 一 满足 X=0 的 向 量 六 总 有 
Cov(a'y, b'y) = oe(X'T-X)-XT-Tb 
= o2e (XT-X)-XT-Th 
= o2c(X'T-X)-X'b=0, 
这 里 我 们 利用 了 X'T- 了 T= X 和 Xb = 0. 根据 引 理 4.4.3, cp* 为 cp 的 BLU 估 
计 . 
(2) 首先 注意 到 ， 在 表达 式 
人 
中 ，((XT-X)-) 和 了 ”可 分 别 用 (X'T-X)- 和 了- 所 替代 ， 于 是 
Var(edB*) = 52c (NT 天) 一 DT 一 和 (XXX)-e， 
再 用 了 一 XUX' 代替 其 中 的 ,得 到 
Var(edB") = o2[e(X'T-X)-XT-TT-X(XT-X)-e 
-5XT XI XT KUNT XRT RT 
再 利用 c=tX 和 XT-T =X', 上 式 右 端 第 一 项 变 为 
A .dt 
= WX(XT TT 
0 so hb 9 
RT XR 
= (XT X)te. 
而 对 右 端 第 二 项 ， 利 用 c=tX 和 X(X'T-X)+X'T-X=X', 得 
LAD i .0D sb 
Db 0 Bw sb, po 
= XUX't = Ue. 
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定理 得 证 . 

车 水 (X) =p, 则 8 的 BLU 估计 为 8* = (XT-X)-1X'T-y. 车头 为 列 降 秩 ， 
这 时 需要 全 体 可 估 函 数 的 估计 ， 在 这 种 情况 下 ， 可 改 为 讨论 均值 向 量 y = XB, 这 
是 因为 任 一 可 估 函 数 都 可 表 为 的 线性 组 合 ， 容 易 证 明 它 的 BLU 估计 为 


1p” = Xp* = X(XT-X)-XT-y, 


Cov(1°) = 02X[(XT-X)- — UJX'. 


下 面 的 推论 是 一 个 具有 广泛 应 用 的 重要 特殊 情形 . 
推论 4.4.1 ”对 于 线性 模型 (4.4.1), 若 M(X) Cc AM(2), 则 对 任 一 可 估 函 数 c'B， 
它 的 BLU 估计 为 
d= x (4.4.6) 
Var(e'B"*) = og?e(X'D-X)-e, 


并 且 所 有 表达 式 与 所 包含 的 广义 着 选择 无 关 ,特别 , 当 rk(X) =p 时 , 8* = (X'D-X)-! 
X 2 为 8 的 BLU 估计 ， 它 的 协 方差 阵 为 Cov(B*) = co2( 天 "2-XX)-1， 

证 明 因为 在 条 件 M(X) c AM(2) 下 ， 在 (4.4.2) 是 中 的 U 可 取 为 零 矩阵 ， 
这 时 了 = 2. 证 毕 . 

我 们 知道 ， 当 > 0 时 ， 对 任 一 可 估 函 数 cB, 它 的 BLU 估计 为 


db 
Var(e'B’) = ozc' (XID-IX)-e 


与 (4.4.6) 相 比较 ， 我 们 发 现 , 当 |2| = 0 时 ， 只 要 M(X) c M(5), 2- 就 能 够 担负 
起 史 >0 时 2-1 所 起 的 作用 . 

注 1 条 件 M(X) c M(Z) 是 任 一 可 估 函 数 "8 的 BLU 估计 为 (4.4.6) 的 
充分 条 件 ， 但 它 并 不 必要 . 例如， 在 线性 模型 (4.4.1) 中 , 若 X = (ln ; Xi), 这 里 
了 = (1,…,1)", 即 ”个 元 素 缘 为 1 的 n 维 向 量 ， Xi 为 任意 的 mx (p - 1) 矩阵 ， 
也 = 和 一 1lnla/m, 即 2 为 中 心 化 矩阵 ， 这 是 一 个 老 等 阵 ， 单 位 阵 5 和 区 本身 都 
是 马 的 广义 逆 ， 由 定理 4.5.1 可 以 证 明 ， 在 这 个 模型 里 ， 任 一 可 估 函 数 的 LS 估计 
都 是 它 的 BLU 估计 ， 这 相当 于 在 (4.4.6) 中 取 2- 为 1,, 但 是 条 件 M(X) Cc M(5) 
并 不 成 立 . 

定理 4.4.2 


co =(y— XP*)T-(y — Xp")/q 
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为 o? 的 无 偏 估计 ， 其 中 9 = rk(T) - 东 (X). 
证 明 因为 
El(y— Xp')T (y— Xp’) 
=tr[T-E(y— XP")(y — XB"*)"), 
直接 计算 EB(y 一 XXB*)(y 一 XB*) 并 将 所 得 表达 式 中 的 本 用 了 一 XUX?' 代替 ， 再 利 
用 关系 式 
Db ob nO Er ti .Td a to, 
得 到 
Ely — XB)T (y— XB") 
= 02tr[T-T — T-X(XT-X)-XY. 
注意 到 T 7 和 (X'T-X)-X'T-X 都 是 寡 等 阵 ， 利 用 等 等 阵 的 性 质 ， 若 4 为 短 等 
阵 ， 则 tk(4) = tr(4), 以 及 对 任意 矩阵 B, 有 rk(B-B) = rk(B), 于 是 有 
已 一 X6")T (Gy 一 Xp) 
= [rk(T-T) -rk((X’T-X)-X‘T-X)] 
= 02[rk(T) — rk(X’T-X)] 
= c2?[rk(7) — rk(X)] 
=0°g, 
定理 证 毕 . 
注 2 ”对 任 一 可 估 函 数 "6, 它 的 BLU 估计 cB* 及 其 方差 以 及 估计 c2* 都 与 
所 含 的 广义 逆 无 关 ， 因 此 都 可 以 用 对 应 的 Moore-Penrose 广义 逆 代 替 ， 即 
Be =d(XTHXIKTHY, 
Var(eB*) =T+e[(XT+X)+ — UJe, 
9% =(y~ XB)Tt(y — Xp°)/gq. 
另外 ,这 些 表达 式 还 都 与 了 的 选择 无 关 ， 只 要 它 满足 (4.4.2). 为 简单 计 常 取 U = 了， 
这 时 了 = 号 十 XX'. 特别 当 M(X) c M(Z) 时 ， 取 忆 = 0 即 了 = 2, 于 是 
Cp’ = (XP+X) XD+y, 
Var(cB*) = oc(X'T+X)te. 
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例 4.4.1 Panel 模型 
考虑 如 下 线性 模型 : 


Yij = Bo t+ zinBi + :+ zierBk + pi + eits 
i=1,2,,N; t=1,2,.,T, (4.4.7) 


这 里 yi; 表示 第 i 个 个 体 在 时 刻 上 的 观测 值 ， zi 表示 第 i 个 个 体 上 第 j 个 自 变 
量 在 时 刻 t 的 取 值 ， 有 Pi,… ,Bk 为 通常 的 回归 系数 ， yi 为 第 i 个 个 体 的 效应 . 
如 果 这 N 个 个 体 是 从 一 个 大 的 个 体 总 体 中 随机 抽取 的 ， 那么 个 体 效应 是 随机 的 ， 
eit 为 随机 误差 . 假设 所 有 的 jw; 和 eit 都 互 不 相关 ， 且 El(eit) = 0,Var(eit) = c2， 
局 (ui) = 0,Var(pi) = 02. 


记 
y= (hl MT Yel NT) 
X = (za ZaT)72 2T ,ZNT), 
B= (PB,.…, Be)’, 


站 = (ppN)’, 
€= (el elTyez ye2T ,ENT)', 
其 中 zi = (zia， zatk) 于 是 模型 (4.4.7) 可 以 写 为 
y= 1nBo+XB+u, (4.4.8) 
其 中 = (Ivw@lr)n+e, 符号 “@ ”表示 Kronecker 乘积 容易 验证 
Cov(w) = of Pi + 02Q + of Jnr7, 
其 中 of = To? +o2， 
P=P- Jnr, 
P=In®J, 
Q=Inr-P, 
Jr=1r17/T. 


下 面 我 们 讨论 6 的 几 种 估计 ， 以 后 我 们 总 假定 永 (X) = 大 

引 理 4.4.4 (1) P, 8, P1 和 Jwr 都 是 对 称 宕 等 阵 ， 其 秩 分 别 为 N,N(T - 
DN-1 和 1 

(2) P,Q 和 Juwr 两 两 正 交 , 即 PQ =0, PiJwr =0, QJnr =0. 
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(3) PQ = 0, PJnr = JnT, PR = PP=P. 
这 些 事实 的 证 明 并 不 困难 ， 但 它们 对 后 面 结论 的 证 明 是 很 关键 的 . 
假定 o2 和 o2 已 知 ， 则 8 的 BLU 估计 可 表示 为 


o2 
三 (o9,02)', 它 的 协 方差 阵 为 


2 
un gn 


2 ER + 2 


Cov(6b*(c?)) = (党 (4.4.10) 
但 是 , 在 实际 应 用 中 , 因为 o2 和 oz 都 是 未 知 的 , 因此 8*(o?) 并 不 能 付 诸 应 用 . 这 
时 我 们 有 两 种 处 理 方法 : 一 种 是 先 设 法 获得 cz 和 co? 的 某 种 估计 , 然后 代入 (4.4.9). 
通常 把 所 得 的 估计 称 为 两 步 估计 ， 关于 这 种 估计 , 我 们 将 在 后 面 讨论 . 另 一 种 方法 
是 寻求 不 包含 cx 和 o2 的 估计 ， 例 如 ， LS 估计 


B=(X'PX+XQOX)-I(X'Py+ XQy) (4.4.11) 
和 Within 估计 
Bw =(XQX)-LX'@y (4.4.12) 
以 及 Between 估计 
Bp =(X'P.X)-1X'Piy. (4.4.13) 


比较 (4.4.11) 和 (4.4.9) 知 ，LS 估计 可 以 看 做 是 在 (4.4.9) 中 令 o = o2, 即 
吕 三 0 时 产生 的 . 而 Within 估计 和 Between 估计 的 获得 稍微 复杂 一 点 ， 需 要 对 两 
个 变换 模型 应 用 最 小 二 乘 统一 理论 才能 获得 . 

对 模型 (4.4.8) 分 别 左 乘 P 和 @, 得 到 


Piy= PXP+u, (4.4.14) 
Qy = QXP + us, (4.4.15) 
这 里 = Piuwz = Qu. ur 和 uo 的 均值 皆 为 零 ， 它 们 的 协 方差 阵 分 别 为 
= Cov(w) = oj 局 ， (4.4.16) 
Va = Cov(ua) = o2Q. (4.4.17) 


因为 只 和 @ 都 是 寺 等 阵 ， 所 以 这 两 个 模型 都 是 奇异 线性 模型 ， 因 为 M(PX) C 
M(P), M(QX) c M(Q), 故 由 推论 4.4.1 容易 证 明 Bw 和 Bs 分 别 是 从 模型 (4.4.14) 
和 (4.4.15) 求 到 的 8 的 BLU 估计 . 这 里 我 们 总 是 假定 (X'PX)-! 和 (XQX)-1 
是 存在 的 ， 这 在 经 济 数据 分 析 中 总 是 成 立 的 . 容易 验证 ， Bw 和 Bs 的 协 方差 阵 分 
别 为 
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Cov(Bw) = o2(X'QX)-! 
Cov(Bp) = 02(X'P.X)-!. 
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虽然 稳健 性 (robustness) 这 种 统计 思想 在 统计 文献 中 由 来 已 入 ， 并 且 从 20 世 
纪 20 年 代 就 开始 受到 统计 学 家 的 重视 ， 但 “稳健 性 ”一 词 只 是 到 了 1953 年 才 由 
G.E.P.Box 第 一 次 明确 提出 来 . 直观 地 讲 ， 稳 健 性 是 指 统计 推断 关于 统计 模型 即 假 
设 条 件 具有 相对 稳定 性 . 这 就 是 说 ， 当 模型 假设 发 生 某 种 微小 变化 时 ， 相 应 地 统计 
推断 与 只 有 微小 改变 . 这 时 ,我 们 就 说 统计 推断 关于 这 种 微小 变化 具有 稳健 性 . 例 
如 ， 本 章 开头 几 节 的 讨论 中 ， 关 于 线性 模型 有 一 个 重要 的 假设 是 Cov(e) = 27. 在 
此 条 件 下 , 证 明了 可 估 函 数 .8 的 LS 估计 c 喇 是 BLU 估计 . 但 是 在 应 用 上 我 们 不 
可 能 要 求 一 个 实际 问题 完 完全 全 满足 这 一 假设 . 事实 上 ， 我们 也 根本 无 法 知道 , 它 
确实 满足 这 条 假设 ， 只 能 通过 分 析 或 检验 ， 判 断 假设 Cov(e) = 27 是 否 大致 上 可 
以 接受 ， 因 此， 我 们 总 是 希望 当 实际 的 Cov(e) 与 27 相差 不 是 太 远 时 ， LS 估计 
< 司 仍然 保持 原来 的 最 优 性 或 即便 不 是 最 优 的 ， 但 不 要 变 得 很 坏 ， 大 体 上 还 “过 得 
去 "若是 这 样 的 话 ， 我 们 就 说 LS 估计 关于 协 方差 阵 是 稳健 的 相反， 如果 出 现 失 
之 毫 厘 ， 雇 之 千里 的 情况 ， 这 个 估计 就 不 具有 稳健 性 ， 应 用 起 来 就 得 特别 谨慎 . 稳 
健 性 总 是 相对 于 模型 的 某 种 变化 而 言 的 . 例如 ， 上 面 举 的 例子 是 LS 估计 关于 协 方 
差 阵 变化 的 稳健 性 . 我 们 自然 也 可 以 讨论 它 关于 设计 阵 的 稳健 性 , 或 者 它 的 某 一 条 
性 质 关于 误差 分 布 的 稳健 性 等 等 . 

应 该 说 , 稳健 性 是 每 一 种 统计 推断 都 应 当 具 有 的 性 质 . 因此 ,统计 文献 中 有 了 
稳健 设计 ， 稳健 检验 等 概念 足见 稳健 性 的 研究 已 经 渗透 到 统计 学 的 很 多 分 支 . 前 
面 已 经 说 过 ,在 某 种 意义 上 讲 ， 稳 健 性 就 是 稳定 性 . 在 数学 的 其 它 分 支 ， 我 们 也 可 
以 找到 与 之 相当 的 概念 . 例如 ， 常 微分 方程 中 十 分 重要 的 稳定 性 理论 ， 就 是 专门 研 
究 方程 的 解 关于 初始 条 件 的 稳定 性 . 又 如 在 非 线性 规划 中 , 也 有 类 似 的 解 的 稳定 性 
概念 这 一 节 我 们 主要 讨论 LS 估计 关于 协 方差 阵 的 稳健 性 . 

考虑 线性 模型 


2y=z86+e， Ele)=0, Cov =co27， (4.5.1) 
这 里 对 > 0 已 知 、 对 任 一 可 估 函 数 cp, 它 的 LS 估计 为 


eB=e (XX)-X'y. 
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我 们 知道 , 当 Cov(e) = o? 了 时 , 它 是 BLU 估计 . 现在 尽管 协 方差 阵 Cov(e) = o? 允 六 
c27, 我 们 希望 cB 关于 误差 协 方差 阵 的 这 种 变化 具有 稳健 性 ， 即 oF 仍然 是 BLU 
估计 : 
cB = ep", (4.5.2) 

这 里 8* 由 上 节 最 小 二 乘 统一 理论 给 出 ( 见 定理 4.4.4). 下 面 两 个 定理 回答 了 这 个 问 
题 . 

记 2 为 mx (nr) 且 秩 为 n 一 r 的 矩阵 ,满足 X'2 = 0, 这 里 > = rk(X). 不 失 
一 般 性 ， 以 下 讨论 中 假设 o? = 1. 

定理 4.5.1 ”对 于 线性 模型 (4.5.1) 和 任 一 可 估 函 数 cB,(4.5.2) 成 立 当 上 且 仅 当 
下 列 条 件 之 一 成 立 . 


(1) X'L2Z = 0， (4.5.3) 
(2) 也 = XAIX' + ZA221， (4.5.4) 
(3) = XDIX'+2D22' +1, (4.5.5) 


其 中 Al, A2, Di 和 Ds 为 任意 对 称 阵 ， 但 使 了 > 0. 

证 明 (1) 依 定理 4.4.3, 我 们 只 要 证 明 ， 在 模型 (4.5.1) 下 ， 对 任意 b= 24t 为 
任意 向 量 ， 总 有 Cov(e'B,b'y) = 0. 由 cB 的 可 估 性 知 ， 存 在 向 量 a 使 得 c = X'a， 
故 

Cov(cB by) =0 
+> aX(X'X)-X' DZt=0， 对 一 切 a 和 t 
< X(X'X)-X'TZ=0 
=> Px72Z =0 4 X'72 =0, 
这 里 Px = XX(X'X)-X', 结论 (1) 得 证 . 

(2) 因为 六 和 2 的 列 向 量 互相 正 交 ， 且 Rn = M(X) 二 M(2Z), 故 对 任 一 矩阵 
4wxn, 存在 矩阵 Ti,T2, 使 4 = XTi+2T2. 由 了 > 0 知 , 存在 Qnxn 使 得 了 = QQ’ 
将 @ 表 为 8= XU +2ZU2, 于 是 

5 = XAX'+ ZA22' + XAsZ' + ZAIX', (4.5.6) 
其 中 Al = UAV,A2 = Us 罗 ,As = Ui. 因为 
XTZ = XXAs22' =0 
< X(XX) XXA3Z'I(2'2)-12’ =0, 
> XAsZ'=0 (利用 XX(X'X)-X'X=XX) 
=XAX'+2A22 (利用 (4.5.6)), 
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这 就 证 明了 (1) 和 (2) 等 价 . 
(3) 由 2 的 定义 知 T- Px = Pz = 2Z(2'2)-12', 于 是 了 可 表 为 


I=Px+(I- Px)=X(X'X)-X’+2(22) 12". 
将 上 式 两 边 从 (4.5.4) 中 减 去 ， 得 
= XA — (X'X)-)X +2(A2 — (2'2)-!)2 二 了 
ES XDIX’+2D22' +1. 


这 就 从 (2) -> (3). 反 过 来 ,利用 工 一 X(X'X)-X' 十 Z(20Z)-120 立即 可 从 (3) = (2). 
定理 证 毕 . 
例 4.5.1 误差 均匀 相关 模型 (error uniform correlation models) 


y= XB+e, E(e) =0, 


误差 向 量 e 的 协 方差 阵 具有 如 下 形式 
1 P p 
Cov(e) = o2 训 1 多 
pp 1 


即 所 有 观测 有 等 方差 "?, 且 所 有 观测 之 间 有 相同 的 相关 系数 . 这 个 协 方差 阵 可 改写 
为 
Cov(e) = o?[p1n1’, + (1— p)In]. 
假设 X 的 第 一 列 全 为 1, 即 模型 包含 常数 项 ， 则 定理 中 所 定义 的 2 满足 142 = 0. 
于 是 容易 验证 
X'Cov(e)2Z = 0. 

因此 对 于 这 个 模型 ， 任 一 可 估 函 数 cB 的 LS 估计 仍 为 BLU 估计 . 

定理 4.5.2 ”对 于 线性 模型 (4.5.1) 和 任 一 可 估 函 数 "8, (4.5.2) 成 立 当 且 仅 当 
下 列 条 件 之 一 成 立 . 

(1) ZX = XB, 对 某 矩 阵 B， 

(2) M(X) 由 了 的 > = rk(X) 个 特征 向 量 张 成 ， 

(3) Px 为 对 称 阵 ， 其 中 Px = X(X'X)- 

证 明 (1) 根据 (4.5.3),cB 为 cB 的 BLU 估计 < XIDZ = 0 < 二 > M(ZX) C 
AM(X) < 一 DX = XB 对 某 个 矩阵 B. 
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(2) 我 们 证 明 (1) < (2). 先 证 明 (1) 全 (2). 
设 为 呈 的 对 应 于 特征 根 和 的 特征 向 量 ， 对 《 作 正 交 分 解 


5E= 引 +e， 其 中 6 €E M(X)，&2€ M(2). (4.5.7) 
根据 正 交 投影 的 定义 ， &1 就 是 在 M(X) 上 的 正 交 投影 .再 从 26 = A, 得 
ZE — M1 = 一 (26z — M2). (4.5.8) 


车 (1) 成 立 ， 则 2&1 e M(X), 于 是 上 式 左边 

26 — M1 € M(X). (4.5.9) 
男 一 方面 ，(1)X'52Z = 0 => M(52) Cc M(2) < 22 = 2Z4, 对 某 个 矩阵 4. 所 
以 ，& 在 M(X) 上 的 正 交 投影 & 或 者 为 0 或 者 仍 为 上 的 特征 向 量 ， 两 者 必 居 其 


一 设 已"…en 为 上 的 nn 个 标准 正 交 化 特征 向 量 ， 右 ,… ,mn 为 它们 在 M(X) 上 
的 正 交 投影 ， 即 


(mn) = Px(6 en). (4.5.10) 
由 已 证 事实 知 思 ，…,Tn 仍 为 2 的 特征 向 量 ， 注意 到 (6 ……,en) 为 正 交 阵 ， 因 
At(mn mn) = M(Px) = M(X). (4.5.11) 


故 和 ,…, mm 只 有 ?个 线性 无 关 ， 且 它们 张 成 了 M(X). 这 就 证 明了 (1) (2), 

反 过 来 ， 设 M(X) 由 对 的 7 个 特征 向 量 &1,…,é. 张 成 , 则 存在 矩阵 C, 使 
得 X = (6r)C = 9C, 其 中 8 = (&1,…,6r). 于 是 2X = 29C = QAC， 
人 A= diag( Xi，…》r). 从 而 X'Z2 = C'AQ'Z = 0, 由 此 可 得 (1). 于 是 (2) 得 证 . 

(3) 由 (4.5.6), Px 对称 二 > XA1X' + XAsZ/ 对 称 <> XAsZ' = 0 二 > 了 = 
XAIX' + ZA22', 此 即 (4.5.4). 定理 证 毕 . 

例 4.5.2 单 向 分 类 随机 模型 

考虑 单 向 分 类 随机 模型 


Yj=L+aites, i=1,.,a,7=1,.…,b, 


这 里 A 为 固定 效应 ， ai 为 随机 效应 ， ei; 为 随机 误差 . 所 有 ai 和 ei; 都 互 不 相 
关 . Var(ai) = o2, Var(ei;) = o2, 将 它 写成 矩阵 形式 


y= Xpy+Uate, 
这 里 n=abX=1n,U= 1® 1. 
Cov(y) = o2UU’ + o21, 
= o2(1s ® 1614) + o21n S B07). 
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根据 矩阵 2 的 定义 X'Z = 1%2 = 0 所 以 X22 = 0. 依 定理 4.5.1, 固定 效应 上 的 
LS 估计 说 = 去 于 95 = 二 .是 上 的 BLU 估计 . 
3 


应 用 定理 4.5.2, 也 可 以 很 容易 证 明 这 一 点 . 事实 上 , 我 们 只 需 证 明 X = la@ly 
是 卫 的 特征 向 量 ， 显然 


ZX = boz(le@ls)+cz(lo@lo) 
= (los+ca(le@lo)= (bo2 + 02)X, 


明 所 和 欲 证 . 
结论 ”对 单 向 分 类 随机 模型 ，y 的 LS 估计 六 = 可 .是 # 的 BLU 估计 . 
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假设 线性 模型 的 观测 向 量 y 的 协 方差 阵 Cov(y) = 22, 除了 o? 之 外 都 是 完全 
已 知 的 ， 这 时 应 用 最 小 二 乘法 获得 的 可 估 函 数 的 GLS 估计 是 最 佳 线性 无 偏 估计 . 
但 在 一 些 实际 问题 中 ， 除 了 o?, 2 还 包含 若干 未 知 参数 ， 记 为 9. 例如 ， 在 线性 混 
合 效应 模型 中 这 些 参数 就 是 方差 分 量 或 它们 的 商 . 在 统计 学 中 , 对 这 样 的 模型 参数 
估计 的 基本 方法 是 ， 第 一 步 ， 先 假定 这 些 参数 是 已 知 的 ， 应 用 最 小 二 乘法 获得 回归 
参数 的 GLS 估计 ， 当 然 这 些 估计 中 包含 了 未 知 参数 9. 第 二 步 ， 设 法 找到 6 的 某 
个 估计 8 然后 在 回归 系数 的 GLS 估计 中 用 8 代替 6, 所 得 到 的 估计 称 为 两 步 估计 
(two-stage estimate) 或 可 行 广义 最 小 二 乘 估计 (feasiable GLSE). 

本 节 的 目的 是 研究 两 步 估计 的 性 质 ， 因 为 两 步 估 计 往 往 是 观测 向 量 的 很 复杂 
的 非 线性 函数 , 因此 关于 它 的 统计 性 质 的 研究 难度 颇 大 . 一 个 基本 的 问题 是 两 步 估 
计 的 无 偏 性 。 Kackar Harvillelezl 对 这 个 问题 做 了 奠定 性 的 工作 ， 提 出 了 无 偏 性 的 
很 一 般 的 条 件 ， 另 外 ， 本 节 还 将 讨论 两 步 估计 协 方差 阵 的 一 个 表达 式 . 

考虑 一 般 线性 模型 


y= XB+e,  E(e)=0, Cov(e)= 2(0), (4.6.1) 


这 里 y 为 n x1 观测 向 量 ，X 为 mn xp 设计 阵 ，B 为 px 1 未 知 参数 向 量 ，e 为 
nx1 随机 误差 ，9 = (91,…,6m) 也 是 未 知 参数 向 量 . 设 2(9) > 0 对 一 切 9 成 立 . 
记 

Bl0) = (X'5-1(0)X)- XE-1(0)y. 
对 任 一 可 估 函 数 "8, 当 9 已 知 时 ， cB(9) 就 是 它 的 GLS 估计 ， 也 是 BLU 估计 . 
如 果 9 是 未 知 的 , 设 8 为 它 的 一 个 估计 , 则 cB(B 就 是 8 的 两 步 估计 . 我 们 先 证 
明 ， 在 一 定 条 件 下 ， c'5(8) 就 是 6 的 无 偏 估计 . 
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我 们 先 引 进 一 些 概念 . 

设 W 为 一 空间 ， 若 对 任 一 ye W, 统计 量 S(y) 满足 5(-y) = S(y), 则 称 S(y) 
对 ye W 是 偶 函 数 . 若 对 ye W, 5(-y) = 一 S(y), 则 成 5(y) 对 ye W 为 奇 函 数 . 
对 于 模型 (4.6.1), 若 对 一 切 y 和 a, 统计 量 S(y) 满足 


S(y— XB8) = S(y), (4.6.2) 


则 称 S(y) 是 变换 不 变 的 . 
引 理 4.6.1 ” 设 为 一 随机 向 量 ， 其 分 布 关于 原点 是 对 称 的 , 记 为 -u, 又 
glu) 是 的 奇 函 数 ， 则 g(w) 的 分 布 关于 原点 也 是 对 称 的 . 
证 明 因为 u 和 -wu 于 是 g(u)  -g(w), 但 是 g(u) 为 奇 函 数 , 故 g(-u)=~g(w)， 
这 样 就 有 
g(u) sg(-u) = -g(u), 
这 就 证 明了 g(w) 的 分 布 关 于 原点 对 称 . 引 理 证 毕 . 
关于 原点 对 称 的 分 布 是 很 多 的 下面 是 一 些 例子 . 
例 4.6.1 (1) 对 任意 了 > 0, 多 元 正 态 分 布 Ns(0, o?5) 都 是 关于 原点 对 称 的 . 
(2) 有 污染 的 正 态 分 布 为 (1 - e)Np(0, 7) +eNp(0, o?7), 它 的 密度 函数 为 


zr 于 


于 本 
f(z)=(1- Srae # + etnoa7 


(3) 自由 度 为 n 的 多 元 t 分 布 ， 它 的 密度 函数 为 
全 动 站 过 
T( 纹 (nr)"5 
这 里 p 为 维 数 ， 当 n= 1 时 ， 它 就 是 多 元 Cauchy 分 布 . 
定理 4.6.1 ”对 于 线性 模型 (4.6.1), 假设 e 的 分 布 关于 原点 是 对 称 的 ， 设 = 
By) 是 9 的 一 个 估计 ， 它 是 y 的 偶 函 数 且 具有 变换 不 变性 设 eB 为 任 一 可 估 范 
数 ， 若 B(cB(8)) 存在 ， 则 两 步 估计 cB( 辐 是 B 的 无 偏 估计 . 
证 明 ”因为 ”8 可 估 ， 故 存在 a 使 得 c= X'a. 于 是 


(1+i2r 


BO) -8 = [XXL Xx) XL-1(0)y — XAl 
= oX(X'D-1DX)- XL)(y — Xp) 
= eA(X'D-1DX)-X'T-1(0)e. 

从 人 的 不 变性 可 得 
0= Oy) = By — Xp) = Ae), 
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因而 
eBO) -eB =e (XT-1(0e))X) -XT!(Oe))e. 
记 u(e) = eB(6) - cB， 因为 6 = Bl(y) = Ble) 是 。 的 偶 函数 ， 从 上 式 容易 推出 
u(-e) = -ule), 即 u(e) 为 e 的 奇 函数 ， 利 用 引 理 便 知 ， ule) 的 分 布 关于 原点 是 对 
称 的 ， 故 有 
E(u(e)) = E(cB(0) -op) =0. 
定理 证 毕 . 

回 到 $4.4 的 Panel 模型 . 现在 沿用 那里 的 记号 ， 对 于 固定 效应 p, 在 §4.4 已 
给 出 了 几 种 重要 估计 ， 包 括 LS 估计 B,Within 估计 所 ,Beteen 估计 Bs 以 及 当 方 
差分 量 o2 和 o2 已 知 时 的 BLU 估计 8*(o?). 现在 我 们 引进 两 步 估 计 . 

在 Panel 模型 讨论 中 , 总 是 假设 X'PLX 和 X'QX 都 是 可 逆 的 . 对 于 一 般 实际 
问题 ， 这 些 假设 往往 是 满足 的 。 从 模型 (4.4.14) 的 残 差 向 量 页 = Pi(y - XBs) 可 
以 构造 o? 的 一 个 无 偏 估计 

s? = UPr i/n, (4.6.3) 
这 里 
n=k(P) -rk(PX)=N-k-1. (4.6.4) 
因为 M(PLX) c M(P), 知 sf 与 广义 逆 Pr 的 选择 无 关 ， 又 因 已 是 对 称 袁 等 阵 ， 
因而 它 是 自身 的 一 个 广义 逆 ， 因 此 (4.6.3) 中 的 Pr 可 简单 地 取 为 P, 得 


#2 =U PD/n. (4.6.5) 


类 似 地 ， 从 模型 (4.4.15) 的 残 差 向 量 各 = 8(y 一 XBw) 可 以 构造 o2 的 一 个 无 
偏 估计 
s2=(y— XBw)Q(y — XBw)/m, (4.6.6) 
其 中 
m=7k(Q)— rk(QX)= N(T -1)-k. (4.6.7) 
不 难 证 明 如 下 事实 : 
引 理 4.6.2 。 (1) X'PIX,X'QX,s?,s3 都 相互 独立 . 
(2) ns /0 ~ x2sms3/02 ~ 2 
证 明 记 o? = (c?,c2), 将 模型 (4.4.14) 和 (4.4.15) 联 立 并 利用 加 和 uz 独立 
性 可 以 把 BLU 估计 B*(o?) 表示 为 Bw 和 Bs 的 以 矩阵 为 权 的 凸 组 合 形式 


pr(c?) = Wi(o’)Bs + Wa(o?)Bw, (4.6.8) 
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这 里 权 和 矩阵 


B WY XPX 
WW 34 < pe 
:= (证 + 这) oF 
B WN\-!X'QxX 
es eh 
me) = (年 + | EE! 
B=XPX, W=XQX. 


2 


在 应 用 上 ， 当 然 吧 和 c2 皆 未 知 ， 这 时 可 以 用 前 面 所 得 到 的 它们 的 估计 弛 和 
强 来 代替 ， 这 就 产生 了 8 的 一 种 两 步 估计 
Hes (BW (XPy, X'Qy 
BR (Rt 和) (+) 


3 
加 


这 里 s? = (s9,s2)'. 显然 
Bls’”) = Wi(s’)Bs + Wa(s?)Bw, 
而 LS 估计 可 表 为 
B=(B+W)-!1(X'P.X + XQX). 


定理 4.6.2 ”B(s?) 是 8 的 无 偏 估计 . 
证 明 因为 


+ 
3 时 


了 ， 史 ) (各 u xgu) 
利用 引 理 4.6.2 的 (1) 可 得 E(B(s?) - 8) = E(E(B(s?) - 6)|s?, 53) = 0, 证 毕 . 
本 节 最 后 研究 两 步 估计 的 协 方差 阵 ， 在 下 面 的 讨论 中 ， 总 是 假设 rk(X) = Pb 

的 估计 懈 是 基于 残 差 向 量 E= Ny 而 做 出 的 ， 这 里 N = 了- X(X' 励 )-1X/. 为 符号 
简单 计 ， 记 2(9) = 乙 , 则 

B* = (X' ZE-IX)-1IX'Z-Ly， 

B= (XT (OX)-1X'D-!(O)y, 
它们 分 别 是 8 的 GLS 估计 (假定 号 已 知 时 ) 和 两 步 估计 .下 面 我 们 研究 两 步 估计 
启 的 均 方 误差 矩阵 (mean square error matrix, 简 记 为 MSEM) MSEM( 记 的 一 些 重 
要 性 质 ， 王 松 桂 和 刘 爱 义 na 对 椭 球 等 高 分 布 证 明了 下 面 的 定理 . 为 了 不 超出 本 书 


的 范围 ， 我 们 只 对 多 元 正 态 分 布 的 情况 给 予 证 明 . 
定理 4.6.3” 设 e ~ Na(o,o2z), 则 


MSEM(B) = Cov(8°) + BE(6b’), (4.6.9) 
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b=6-p. 
证 明 ”对 误差 向 量 e 作 分 解 


e=(y—X8°)+ (XP* — XP) Ew + wu, 


这 里 
wm = 一 Xp S(T- M)e, 
uw = Me, 
M = X(X'T-1X)-1X'T-!. 
因为 
un I-M 
= e, 
U2 M 
el (I—- M)E(I- MY (IT- M)EM’ saa 
wz ME(I— MY MYM’ 
2 Ai Aiz . 
Aszl A2z2 
由 第 二 章 知 


人 入 | ~ Na(0,02A). 
Uz 


注意 到 Az1 = 0, 于 是 我 们 有 


Eluluz) = A Anu = 0. (4.6.10) 
另 一 方面 
MSEM(B) = Cov(8*)+ E(b)+ E(B -8°)(8° -Bp) 
+E(p* ~ P)(B— 8°)'. 
显然 ， 只 需 证 明 


E(B -8°)(8* -By =0. (4.6.11) 
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因为 

Cov( 轩 = Cov(Ny) = Cov(N(I - M)y) = Cov(Nu), 
利用 B-B* = X(X'E-1( 食 X)-1X' Dr- 的 ua B* 一 6 = X(X'X)-1X'ua 以 及 (4.6.10) 
得 


E(B- 8°)(8* 一 D) 
= E[((X'D- (OX)-1X'T-1(Ouuy X(XX)-1] 
= EI[(X’T OX) XT (Du E(u )X(XX)-! 
=0. 


这 就 证 明了 (??), 定理 证 毕 . 
推论 4.6.1 设 e~ Nn(0, ?2()) 2(9) 是 的 偶 函数 ， 且 E(B) 存在 ， 则 启 
是 6 的 无 偏 估计 ， 且 
Cov(B) = Cov(B*) + E(bb’). (4.6.12) 


证 明 ”因为 残 差 向 量 8 关于 变换 y 下 y+ Xt 是 不 变 的 ， 应 用 定理 4.6.1 得 记 
的 无 偏 性 ， 其 余 结 论 是 显然 的 . 证 毕 . 

(4.6.9) 和 (4.6.12) 右 端 第 二 项 Q = E(6bb") 表示 了 用 估计 (BO) 代替 2(9) 所 引 
起 的 估计 量 的 协 方差 阵 的 扩大 .一 个 自然 又 很 重要 的 问题 是 估计 @ 的 上 界 . 但 是 
在 一 般 情况 下 ， 这 是 一 个 很 困难 的 问题 . Toyooka 和 Kariyali0] 研究 了 9 为 单 参 
数 的 情况 . 
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在 统计 参数 估计 理论 中 ， 围 绕 最 小 方差 无 偏 估计 (minimum variance unbiased 
estimate, 简 记 为 MVU 估计 ) 这 一 重要 概念 , 有 许多 既 有 数学 美 又 有 统计 理论 与 应 用 
价值 的 重要 结果 , 其 中 之 一 就 是 所 谓 的 MVU 估计 的 判定 定理 ，g(9) 的 一 个 无 偏 估 
计 T(z) 是 MVU 估计 , 当 且 仅 当 对 零 的 任 一 无 偏 估计 h(z) ,有 Cov(T(z),h(z)) = 0 
对 一 切 9 € 9 成 立 ， 这 里 © 为 参数 空间 ， 且 所 涉及 的 统计 量 都 假定 方差 有 限 ( 参 
阅 文 献 [26]). 这 就 是 说 ， 一 个 无 偏 估计 要 具有 最 小 方差 当 且 仅 当 它 跟 零 的 所 有 无 
偏 估计 都 不 相关 ， 因此 ， 若 存在 零 的 一 个 无 偏 估计 ho(z), 它 跟 T(z) 是 相关 的 ， 即 
Cov(T(z),h(z)) 关 0, 则 T(z) 就 不 是 它 的 均值 的 MVU 估计 .一 个 重要 问题 是 ， 如 
何 利用 ho(z) 与 T(z) 的 相关 性 ， 构 造 一 个 比 T(z) 具有 更 小 方差 的 新 的 无 偏 估计 
呢 ? 关于 这 一 点 ， 统 计 估 计 理 论 的 专著 中 似乎 很 少 论 及 . Raolesl 引进 协 方差 改进 
法 (covariance adjustment approach), 它 利用 ho(z) 与 T(z) 的 相关 性 ， 即 它们 的 协 
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方差 不 等 于 零 ， 很 简单 地 构造 ao(z) 与 T(z) 的 线性 组 合 ， 它 就 是 比 T(z) 具有 更 
小 方差 的 新 的 无 偏 估计 . 最 近 十 余年 来 , 许多 统计 学 家 把 这 个 技巧 应 用 于 各 种 线性 
回归 模型 , 混合 模型 ， 以 及 生长 曲线 模型 . 使 得 协 方差 法 成 为 寻找 改进 估计 的 有 力 
工具 ， 参 阅 文献 [3][16][18]. 本 节 的 目的 是 对 线性 模型 的 情形 讨论 协 方差 改进 法 . 
我 们 把 协 方差 改进 法 归纳 为 如 下 定理 . 
定理 4.7.1 设 9 为 px 1 未知 参 数 ，Ti 和 了 T 分别 为 px1 和 9x1 统 计量， 
且 E(T)=0, E(T)=0. 记 


T Zn 也 
cov| | = i (4.7.1) 
T E21 22? 


假定 2 > 0,D12 关 0. 则 在 线性 估计 类 4 = {T = 4 五 +4272， 4i 和 hz 为 非 随机 阵 ， 
BE(T) = 0} 中 ，6 的 BLU 估计 


0 =T -D273 D, (4.7.2) 


Cov(0") = B11 - B12732 E21 < Zi = Cov(T). (4.7.3) 


证 明 ”将 定理 的 条 件 用 线性 模型 表示 ， 即 为 


= 0+e, er~ (0, >), 
T 0 


易 验证 0* 为 该 模型 中 9 的 BLU 估计 .利用 定理 3.3.6, 其 它 结论 显然 ， 定 理 证 毕 . 

以 下 称 (4.7.2) 所 定义 的 估计 9* 为 协 方差 改进 估计 , (4.7.3) 表明 协 方差 改进 估 
计 9* 比 1 有 较 小 的 协 方差 阵 ， 两 者 协 方差 阵 之 差 为 Pi?2 到 Zai. 它 是 使 用 了 TT 
和 Ti 的 相关 性 所 带 来 附加 信息 的 结果 . 如果 Dis = 0, 那么 两 个 协 方差 阵 为 零 ， 这 
时 Bb 与 不 相关 ， 自然 T 也 就 没有 任何 改进 Ti 的 附加 信息 .为 叙述 方便 ， 文 
献 中 有 时 称 T 为 协 变量 . 

注 1 车 马 > 0 此 时 222 可 能 是 奇异 阵 ， 这 时 在 (4.7.2) 和 (4.7.3) 中 将 了 到 
改 为 222 的 任 一 广义 逆 53s, 定理 仍然 成 立 . 

例 4.7.1 ”线性 回归 模型 

考虑 一 般 线性 回归 模型 


y= XB+e, E(e) =0, Cov(e) = oz, 
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这 里 y 为 n x1 观测 向 量 ，X 为 nxp 的 设计 答 阵 ， 水 (X) = Pie 为 nx1 随机 误 
差 ， 9 > 0. 众所周知 ，6 的 BLU 估计 和 LS 估计 分 别 为 B* = (XD-1X)-1X'D-1y， 
和 =(X'X)-1X'y. 
如 果 在 定理 4.7.1 中 , 取 区 = Ts = 2'y, 这 里 2Z 为 nx (n 一 中 矩阵 ， 满 足 
X'2=0, 且 rk(2)=n-p, 则 
ED) = ED = 有 
E(T3) = 0， 


Es (XX)-IXEX(XK)-! (XX)-IX'DZ 
ov s ; 
ZTX(XX)-1 2132 


假定 X 32 关 0, 应 用 定理 4.7.1, 则 得 到 协 方差 改进 估计 太 = 一 (X'X)-:. 
X 22(2'22) 1 2. 利用 如 下 事实 
(XTX)IXET = (XX) IX' (XX)IXLZ(2'52)-12, 


便 有 广 = 6*. 这 就 是 说 ，B 的 BLU 估计 B* 也 是 协 方差 改进 估计 ， 它 是 从 LS 估计 
经 过 一 次 协 方差 改进 得 到 的 

例 4.7.2 ， 带 线性 约束 的 线性 回归 模型 

考虑 如 下 模型 


| y= XB+e, El(e) =0, Cov(e) = o21, 


HB=d, 


这 里 及 为 mxp 佐 阵 ，rk(H) =m, 且 HB = d 是 相 容 的 ， 其 余 假设 同 例 4.7.1. 取 
及 = (人 DMI 和 有 = (XXX)-IX9 取 侯 = 房 2 = HP- d. 在 约束 参 
数 区 域 HB = 4 上， BE(D) = 0. 


全 人 
Cov = 02 
ZT H(X'X)-! H(X'X)-1H’ 
对 这 样 定义 的 Ti 和 Ts 应 用 定理 4.7.1, 得 到 协 方差 改进 估计 


Bu =B- (XX)-1H'(H(X'X)-1H) (HP), 


它 正 是 8 的 约束 LS 估计 ( 见 84.2). 
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例 4.7.3 ” 带 随 机 形式 的 附加 信息 的 线性 回归 模型 
考虑 线性 回归 模型 


zy=X86+e，  E(e)=0, Cov(e) = o?7, 


假设 有 附加 信息 


u=HB+e, BE(e)=0， Cov(e)=W, (4.7.4) 


这 里 W > 0 是 已 知 矩阵 ， < 和 e 不 相关 ， 随 机 附加 信息 的 一 个 例子 是 ， 人 很 设 从 历 
史 数据 已 经 得 到 8 的 一 个 估计 记 则 语 = 6+e, BE(e) = 0. 它 是 (4.7.4) 中 已 = 工 的 
特例 . 在 定理 4.7.1 中 , 取 T= BT2 =u 一 HB 则 所 得 到 的 协 方差 改进 估计 具有 形 
趟 "(go?)= 忆 一 (XIX) 了 (党 + 及 (XX)-1H')-1(HFB 一 u), 这 里 假定 o? 已 知 . 利 
用 矩阵 之 和 的 求 逆 公 式 (4+ BCB')"! = 4-1- A-1B(B'4-1B+C-!)B'4-1, 不 难 
本 X'X Er 

0 (mh (党 
这 就 是 通常 的 混合 估计 ， 因 此， 我 们 证 明了 混合 估计 也 是 协 方差 改进 估计 . 

从 上 面 三 个 例子 可 以 看 出 ,对 于 线性 回归 模型 从 LS 估计 出 发 选用 三 个 不 同 的 
协 变量 (它们 代表 三 种 不 同 来 源 的 附加 信息 ) 就 可 以 得 三 种 协 方差 改进 估计 ， 它 们 
都 是 我 们 熟知 的 估计 . 

在 实际 应 用 中 ， 了 往往 未 知 ， 但 我 们 可 能 设法 构造 呈 的 一 个 估计 


Re Su S12 
S21 S22 


在 (4.7.2) 中 ,分别 用 Sts 和 S22 代替 Ziz 和 Eo, 得 到 


+ HH 


FH=T — $125 T, 


称 为 两 步 协 方差 改进 估计 .一 个 重要 问题 是 6 的 统计 性 质 如 何 呢 ? 在 这 一 方面 已 
有 了 一 些 初步 研究 结果 . 这 部 分 内 容 超出 了 本 书 的 范围 , 感 兴趣 的 读者 可 参阅 文献 
[28], p.101. 


$4.8 ”多 元 线性 模型 


前 面 各 节 所 讨论 的 线性 模型 都 只 包含 一 个 因 变量 ， 例 如， 研究 产品 的 菜 一 项 
性 能 指标 六 与 原材料 含量 ， 加 工 条 件 Xi1,…, X,-1 之 间 的 关系 ， 导致 了 一 个 因 变 
量 页 对 多 个 自 变 量 Xi,…, Xp- 的 线性 模型 ， 但是， 实际 应 用 上 ， 人 们 也 常常 会 
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遇 到 含 多 个 因 变 量 的 问题 . 例如， 如果 我 们 同时 对 产品 的 多 个 指标 瑟 ，…, 玖 感 兴 
趣 ， 这 时 就 有 4 个 因 变量 ， 这 很 自然 地 导致 了 对 多 个 因 变量 与 多 个 自 变量 的 线性 
模型 的 研究 . 为 了 说 话 方便 , 我 们 把 以 前 讨论 的 仅 含 一 个 因 变量 的 线性 模型 称 为 一 
元 线性 模型 ,而 把 含 多 个 因 变 量 的 线性 模型 称 为 多 元 线性 模型 . 虽然 这 种 只 按 因 变 
量 多 少 对 模型 进行 分 类 的 方法 不 尽 合 理 ， 但 我 们 还 是 遵守 这 种 已 经 形成 的 习惯 . 

本 节 通 过 多 元 线性 模型 参数 估计 问题 的 讨论 ， 旨 在 介绍 一 种 把 多 元 线性 模型 
问题 化 为 一 元 线性 模型 问题 的 方法 . 

一 般 ， 假 设 研究 9 个 因 变 量 各 ,… ,Ys 和 p 一 1 个 自 变量 X1,… ,Xb-1 之 间 的 
关系 ， 若 六 与 XI,… ,Xp-1 有 线性 关系 ， 


Y=BotBiXit+.+Bp-iyXpite;, j=1,..,g, (4.8.1) 
为 了 估计 系数 Bij, 对 半 ,… ,Ya 和 Xi,…,，Xp-1 作 n 次 观测 ， 得 到 数据 
Yily' ,Yig; Ti Tip—1) i= 1 ,nn 


它们 满足 
Yi = Bot+Piyrat+.+Bp-yrip-1+ej, i=1,n, j=1,...,g. (4.8.2) 
车 引进 矩阵 记号 


Ml V2 “Yig 
Ynxg = ” 加 Ey = (Yi, ,yg), 
Ynl Yn2 … Yng 
1 zl …' zlp-l 
ew 1 z2t … zap-1 
1 Bi ‘i papi 
Bo bos Bog 
Box = A 加 9 = (Bi, 2, ,69), 


Bo-n Bp-i2 … Po 
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El E12 Elg 
E21 E22 E2g 

Enxg = wi ， | = (enez ,60)- 
Enl En2 “°° Eng 


这 里 随机 误差 矩阵 s 的 不 同行 对 应 于 不 同 次 观测 ， 我 们 假定 它们 不 相关 ， 均 值 为 
零 ， 有 公共 协 方差 阵 为 本 > 0.B 为 未 知 参数 阵 ， 每 个 列 对 应 于 一 个 因 变 量 ， 了 为 
因 变量 随机 观测 阵 ， 它 的 不 同行 对 应 于 不 同 次 观测 (或 试验 ), 每 个 列 对 应 于 一 个 因 
变量 ， 假设 素 (X) =p. 于 是 (4.8.2) 变 为 


Y=XB+e, 
e 的 行 向 量 互 不 相关 ， 均 值 为 零 ， 协 方差 阵 为 忆 . 
我 们 称 (4.8.3) 为 多 元 线性 模型 . 
现在 讨论 (4.8.3) 中 未 知 参数 B 和 了 的 估计 问题 ， 基 本 方法 是 应 用 矩阵 向 量 


化 运算 ， 把 (4.8.3) 转化 为 一 元 线性 模型 ， 然 后 应 用 前 面 的 结果 ， 导 出 B 和 允 的 估 
计 . 


(4.8.3) 


应 用 Vec(4BC) = (C'@4)Vec(B), 有 
Vec(Y) = (I @ X)Vec(B) + Vec(e). (4.8.4) 
因为 
Cov(yy) =05In, bi=1,..,g, 


这 里 了 = (0ij)oxgq, 再 由 Cov(Vec(s)) = 台 @ 六 ,多 元 线性 模型 (4.8.3) 化 为 如 下 一 元 
线性 模型 


Vec(Y) = (T@X)Vec(B) + Vec(e), 
Cov(Vec(e)) = ® 1,, (4.8.5) 
E(Vec(e)) = 0. 
应 用 一 元 线性 模型 的 结果 和 Kronecker 乘积 的 性 质 ， B 全 Vec(B) 的 BLU 估计 为 
PB =Vec(B") 

= [(T@X)( Ze@zm)-I(T@X) (I®X)(L ® I,)- Vec(Y) 

= (2-!®@ XX) (2F-!@X')Vec(Y) 

= (I®(X'X)-1X')Vec(Y) (4.8.6) 

= Vec((X’X)-1X'Y), 
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于 是 B 的 BLU 估计 为 
B*= (XX)-X'Y. (4.8.7) 
车 记 B* = ( 谎 , 谎 ,…, 房 ), 则 
Br = (XX)IX'Y, = Lr 
此 即 从 一 元 线性 模型 
=XBte, i=l1,.,9 (4.8.8) 
导出 的 LS 估计 . 这 个 结果 表明 : 4 个 因 变 量 的 多 元 线性 模型 的 参数 矩阵 B 的 
BLU 估计 可 以 从 4 个 一 元 线性 模型 (4.8.8) 得 到 ， 对 一 元 线性 模型 (4.8.5) 应 用 定 
理 4.5.2 之 (3), 也 可 以 证 明 ，Vec(B*) 的 BLU 估计 和 LS 估计 相同 ， 与 协 方差 阵 
Cov(Vec(e)) = 对 @ 1 无关. 
容易 证 明 ， 
Cov(Vec(B")) = 5 @® (XX)-!, (4.8.9) 
于 是 
Cov(6 8 =05 (XXX) j=1,.,g. 
现在 讨论 允 的 估计 ， 定 义 
Y*=XB* = X(XX)-IX'Y ES Pxy, 
E=Y-Y*=(I- Px)Y. 
应 用 事实 ， EE(z'Ay) = trl4Cov(y,z)]+ [BE(z)j'4[B(o) 有 
Bly(T ~ Px)y;] 
=0i;tr(T ~ Px)+BX'(T — Px)Xp; 
=05tr(T — Px) = (n ~ g) oi. 
于 是 
E(E'E) = EIY’'(I ~ Px)Y] = (n ~ p)E. 


最 后 ， 我 们 得 到 2 的 一 个 无 偏 估计 
1 
od 
如 果 进一步 假设 (4.8.3) 中 的 行 向 量 服 从 正 态 分 布 , 则 可 以 证 明 B* 与 2* 相 
互 独立 ， 事实 上 ， 在 正 态 假设 下 


= 


YI- Px)Y. (4.8.10) 


Vec(Y) ~ Nna((T@X)Vec(B) 5 ®@ I). (4.8.11) 


34.8 多 元 线性 模型 光波 


记 字 =(o5), 则 


(n—p)o$ = (I — Px)y; 
= Vec(Y)'[Eij(q x gq) ® (I — Px)]Vec(Y), 


这 里 Eij(q x 9) 表 9 阶 方 阵 ， 除 (i, j) 元 为 1 外 ， 其 余 均 为 零 .从 (4.8.6) 和 上 式 
知 ， (n 一 p)o;; 和 B" 分 别 是 正 态 向 量 Vec(Y) 的 二 次 型 和 线性 型 ， 因 为 


(I@X(XX) XID@DBixge-RPx) 
[2 Ei(q x q)] ® [IX(X'X) X(T ~ Px)] =0, 


知 o 与 B* 相互 独立 ， 且 对 一 切记 j = 1,…,g 都 对 ， 于 是 2* 与 B" 相互 独立 ， 
上 面 讨论 的 是 rk(X%xp) = 的 情况 .车 永 (Xnxp) < p, 此 时 在 (4.8.6) 中 ， 改 
(XIX)-! 为 广义 道 (X'X)-, 则 8* = Vec(B"*) 或 等 价 地 
B* =(X'X)-X'Y (4.8.12) 


就 是 如 的 GLS 解 . 设 4 为 任 一 p x 9 矩阵 ， 则 参数 矩阵 B 的 任 一 线性 函数 可 表 
为 p=tr(4'B). 因为 

p=tr(A'B) = Vec(A)'Vec(B), 
从 模型 (4.8.5) 可 推 知 ， 此 函数 可 估 当 且 仅 当 


Vec(4) e M(I® X') 
人 > 存在 Tnxg, 使 得 Vec(4) = (T@ X')Vec(T) 
二 (4.8.13) 


于 是 ， 对 任 一 4 = X'T, 可 估 函 数 p = tr(4'B) 的 BLU 估计 为 

yp* =tr(A'B*). (4.8.14) 
对 于 允 的 无 偏 估计 , 只 需 将 (4.8.10) 中 Px = X(X'X)-1X' 改 为 Px = X(X'X)-X'， 
二 次 型 的 因子 中 p 改 为 = zk(X) 即 可 .在 误差 正 态 假设 下 ，y* 与 2* 的 独立 性 


仍然 成 立 . 
同样 的 处 理 手法 也 可 应 用 于 更 一 般 的 多 元 线性 模型 : 


(4.8.15) 


Y= XBX2+e, 
< 的 行 向 量 互 不 相关 ， 均 值 为 零 ， 协 方差 阵 为 乙 ， 
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这 里 Y 仍 为 nxg 随机 观测 阵 ， Xi 和 Xz 分 别 为 nxp 和 kxg 已 知 和 矩阵， 五 为 
n x gq 的 未 知 参 数 阵 ， 关 于 < 的 假设 同 模型 (4.8.3). 这 类 模型 的 不 少 例子 来 自生 物 
生长 问题 ， 故 得 生长 曲线 模型 (growth-curve model) 之 名 . 

我 们 举 两 个 例子 以 说 明 这 类 模型 的 实际 背景 . 

例 4.8.1 生物 学 家 欲 研 究 白鼠 的 某 个 特征 随时 间 变 化 情况 ， 随 机 选用 n 只 
小 白鼠 做 试验 ， 在 时 刻 H,… ,tp 对 每 只 小 白鼠 观测 该 特征 的 值 ， 设 第 i 只 小 白鼠 
的 p 次 观测 值 为 yi,… ,yip，i = 1,…,n. 假定 不 同 白鼠 的 观测 值 是 不 相关 的 ， 而 
同一 只 白鼠 的 了 次 观测 却 是 相关 的 ， 且 协 方差 阵 为 2(> 0). 从 理论 分 析 认为 ， 这 些 
观测 值 与 观测 时 间 t 的 关系 为 k 一 1 阶 多 项 式 ， 


并 = = io+Rt+… 十 大 -ltk-1 (4.8.16) 


这 就 是 所 谓 理论 生长 曲线 .生物 学 家 的 目的 是 估计 Bo, B1,…, Bk-1, 以 得 到 经 验 生 
长 曲线 ， 若 以 ci; 记 yi; 所 含 的 误差 ， 则 对 观测 数据 yij, 我们 有 模型 


Yl V2 …” Yip » x 1 ww 和 
821 Y22 … Yop 1 tl to mf t 

ee .|=| .|(op pc | ”|+(es). 
Ynl Yn2 … 3np 1 由 朴 1 9 


它 具 有 (4.8.15) 的 形式 . 且 < 也 满足 所 做 的 假设 . 


例 4.8.2 ”研究 的 问题 和 上 例 相同 ， 但 是 ， 现 在 欲 建立 m 个 经 验 生长 曲线 . 
假设 对 ”只 小 白鼠 依 品 种 或 其 它 指标 分 成 m 个 小 组 , 第 i 组 有 ni 只 ，n = 学 ni 


和 上 例 一 样 ， 在 时 刻 1，,…,tp 对 每 只 小 白鼠 的 特征 进行 观测 ， 在 理论 上 ， 对 每 小 
组 有 一 条 生长 曲线 


Y=f(t)=Piot+Batt+...+Brte!l, i=1,..,m. (4.8.17) 
记 yij1 为 在 时 刻 t: 对 第 i 组 的 第 7 只 小 白鼠 的 观测 值 ， 引 进 下 列 矩 阵 ， 


F=(yDnxp i=l,,m, 
La 


Ynxp = :| 


84.8 多 元 线性 模型 A 


六 0 
| 人 小 
0 ln 
证 
| 二 下 
a 
Bo Bu Bixr-1 
Bpxa = 司 人 a 
Bmo Bra Bnk—1 
El 
e= 的 y i = (Eij 1)nixps 
Em 


这 里 l* 表示 nn 个 1 组 成 的 nx 1 向 量 ， 我们 就 有 
Y =X1BX2 +e, 
且 *e 满足 (4.8.15) 的 假设 . 
应 用 矩阵 向 量化 方法 ， (4.8.15) 变 为 
Vec(Y) = (XS ® X1)Vec(B) + Vec(e), 
E(Vec(e)) =0, (4.8.18) 


Cov(Vec(e)) = 2 ®I. 


利用 (4.8.18) 不 难 证 明 ,线性 函数 p = tr(A'B) 可 估 的 充 要 条 件 是 , 存在 矩阵 Txo， 
使 得 


A= XI!TX;. (4.8.19) 
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若 卫 已 知 则 8* = Vec(B") 的 GLS 解 为 


Br = Vec((X!X1)_ XIYD- 1X (XTX))-), (4.8.20) 
等 价 地 
Br SO (4.8.21) 
这 两 个 上 式 的 证 明 留 给 读者 做 练习 . 


在 卫 已 知 的 条 件 下 ， 对 任 一 满足 (4.8.19) 的 4, 可 估 函 数 p = tr(4'B) 的 BLU 

估计 为 
yp” =tr(4'B*). (4.8.22) 

容易 看 到 ， 当 大 = g, X2 = 1 时 ， 模 型 (4.8.15) 变 为 模型 (4.8.3), 相应 地 (4.8.19) 和 
(4.8.21) 就 变 为 (4.8.13) 和 (4.8.12). 和 模型 (4.8.3) 所 不 同 的 是 , 在 (4.8.21) 中 ，B* 
表达 式 与 忆 有 关 . 当 忆 未 知 时 ， (4.8.22) 就 不 再 是 p = tr(4'B) 的 BLU 估计 了 . 
和 84.3 一 样 ， 需 要 先 对 马 作出 估计 ， 然 后 在 (4.8.21) 中 用 其 估计 代替 2 得 到 两 步 
估计 ， 

不 难 证 明 


s Y'(T— Xi(XIX1) XY (4.8.23) 


Ee 1 

一 mrkOo) 
是 开 的 一 个 无 偏 估计 当 mm 一 rk(Xi) > 9 时 ， 它 以 概率 为 1 的 正定 . 将 8 代入 
(4.8.21), 得 到 


Be (NI Re (4.8.24) 
称 为 B 的 两 步 GLS 解 . 对 任 一 可 估 函 数 wp = tr(4'B), 其 两 步 估计 为 
$= tr(A'B). (4.8.25) 


当 。 的 行 向 量 的 分 布 关于 原点 对 称 时 ， 它 是 ”的 无 偏 估计 ， 即 E(8) = %， 

从 本 节 的 讨论 我 们 可 以 看 出 ， 一 元 线性 模型 参数 估计 理论 和 方法 为 一 般 多 元 
线性 模型 以 及 生长 曲线 模型 的 研究 提供 了 基础 . 关于 这 些 模 型 的 深入 讨论 , 读者 可 
参阅 文献 [83] 和 [73]. 

本 章 讨论 了 线性 模型 LS 估计 的 一 些 基本 性 质 . 关于 一 些 进一步 研究 的 问题 ， 
如 LS 估计 的 相对 效率 ， 可 容许 性 ， 相 合 性 等 ， 限 于 本 书 性 质 及 篇 幅 ， 不 青子 以 讨 
论 ， 但 书后 给 出 了 能 够 反映 这 些 领 域 的 研究 现状 的 近期 重要 文献 ， 供 读者 参考 . 


习 题 
4.1 对 线性 模型 


=AB+Bt+e, 


习题 四 .119 ， 


= +B+ez, 
=A+P+es, 


证 明 Sa 可 估 和 cl = c2 二 cs- 

42 对 线性 模型 y= XB+e ~ QQ ce 站 二 作画 数 记 一 忆 ， 记 各， 一 二 
可 入 < 对 一切 少 足 中 = 0 的 ve 号 i 可 对 

4.3 对 线性 模型 y= XB + ee (0， aa)， 卫 > 0. 49 为 可 信函 数 AB 的 BLU 信 
计 ， 这 里 4 是 nxp 的 矩阵 ， 设 By 为 4 的 任 一 无 偏 信 计 ， 证 明 


Cov(By) > Cov(AB°). 


这 里 Mi > Ms 定义 为 Mi 一 Mz > 0. 

4.4 对 线性 模型 y = XB +e e ~ (0, 0?1), rk(Xnxp) = p, B = (X'X)-1X'y? 
=|y— XBl/(n — p). 

(D 求 Var(29). 

(2) 设 4= (IT-XX+)/n 一 P+2), 计 算 EB(y'Ay 一 o?)?. 

(3) 证 明 ，y Ay 作为 o? 的 一 个 估计 , 比 53? 有 较 小 的 均 方 误差 , 即 MSE(y' 4y) < MSE(6?). 

4.5 “ 称 重 设计 ， 假 设 我 们 用 天 平 称 重量 分 别 为 B1,… ,Bp 的 p 件 物体 ， 每 次 称 若干 件 问 
题 ， 这 种 称 物 方法 可 用 线性 模型 


Y=PBX1+..+BpXp+e 


来 描述 ， 这 里 


1, 若 第 i 件 物体 放 在 天 平 的 左边 ， 
X= 闪 若 第 i 件 物体 没有 称 ， 
一 1， ”车 第 i 件 物体 放 在 天 平 的 右边 ， 


Y 表示 所 加 的 夸 码 重量 ， 若 硅 码 放 在 天 平 的 右边 ， 取 正 值 ， 不 然 取 负 值 ，e 表示 误差 . 假定 我 
们 每 次 把 一 部 分 物体 放 在 天 平 左 边 ， 而 另外 的 一 部 分 或 全 部 放 在 天 平 右边 ， 总 共 称 了 n 次 ,每 
次 所 加 的 硅 码 的 重量 为 y,…… ,yn. 于 是 得 到 模型 


了 1 Tip A el 
2 21 2p [3 ez 
下 
Yn Znl Tnp bp en 


记 X = (zij), 并 认为 各 次 称 物 过 程 相互 独立 .于 是 我 们 可 以 从 这 个 模型 得 到 的 p 件 物体 重量 
Bi,…，Bp 的 LS 估计 记 ,…, 记 . 
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(D 证 明 Var( 记 ) > o?/n， i 二 1,…,p. 并 且 对 i = 1,…,p 达到 最 小 值 的 充 要 条 件 为 的 
元 素 只 取 土 1, 且 X 的 任 两 列 彼此 正 交 - 

(2) 如 果 每 次 只 称 一 件 物体 ， 为 了 达到 (1) 中 的 精度 ( 即 估计 的 方差 ), 总 共 要 称 np 次 

注 , 一 个 呈 阶 方 阵 X 若 其 元 素 只 取 士 1, 且 任 两 列 都 正 交 , 则 称 X 为 n 阶 Hadamard 阵 . 
结论 (1) 表示 ， 当 n >p 时 ， 由 nt 阶 Hardamard 阵 的 任 p 列 作为 设计 阵 ， 可 使 Var( 房 ) 达到 
最 小 . 

4.6 ”对 线性 模型 y = XB8 +e，e~ (0, o?7),rk(Xnxp) = p, 证 明 

Var(B) > o/sizs, 1<igp, 


这 里 zi 表示 X 的 第 i 列 ， 且 等 号 成 立 <> zzi = 0 对 一 切 让 天 于 

4.7 对 奇异 线性 模型 y= 二 XB+e，e 和 ~ (0, o?D),P>0. 设 所 为 XD-XB=X'D-y 的 
任 一 解 ， 对 一 切 可 估 函 数 cB, c' 启 为 其 无 偏 估计 二 > zk(X'Z-X) = rk(X). 

4.8 证 明 引 理 4.4.4. 

4.9 在 Panel 模型 (4.4.8) 下 ， 试 证 B 的 BLU 估计 为 (4.4.9). 

4.10 ”对 线性 模型 y = XB+e， e~ (0, ac2?2), 证 明 若 富 = XDiX'+ Do2ZD22'5o + Do 
其 中 ， Di > 0, Da > 0, Po > 0, 则 对 于 任 一 可 估 函 数 c'B, 它 的 BLU 估计 为 ep8"(2o), 这 里 
厅 (Zo) = (X' BE0 1X)-X'Za'y. (提示 ， 利 用 定理 4.5.1.) 

4.11 对 生长 曲线 模型 (4.8.15), 证 明 

(1) 线性 函数 p = tr(A'B) 可 估 的 充 要 条 件 为 存在 Thxs 使 得 A = XfTX2. 

(2) 证 明 (4.8.20) 和 (4.8.21). 

(3) 若 误差 阵 的 行 向 量 的 分 布 关于 原点 对 称 ， 则 对 任 一 可 估 函 数 p = tr(A'B), 两 步 估计 
= tr(4 六 为 p 的 无 偏 估计 ， 这 里 万 由 (4.8.24) 定义 


第 五 章 假设 检验 及 其 它 


在 上 一 章 ， 我 们 系统 地 讨论 了 一 般 线 性 模型 的 最 小 二 乘 估计 理论 ， 在 此 基础 
上 ， 本 章 将 转 入 这 种 模型 的 其 它 形式 的 统计 推断 ， 这 包括 线性 假设 检验 、 置 信 椭 
球 、 同时 置信 区 间 、 因 变量 的 预测 及 最 优 设 计 . 因为 这 些 形式 的 统计 推断 都 离 不 开 
观测 向 量 的 分 布 ， 因 此 ， 和 前 面 不 同 的 是 ， 在 本 章 讨 论 中 ,我 们 始终 要 假定 模型 误 
差 服 从 多 元 正 态 分 布 ， 并 且 为 符号 简单 计 ， 只 讨论 误差 协 方差 阵 具有 形式 c27. 于 
是 ， 我 们 将 要 讨论 的 线性 模型 为 


y=X8+e， e~ Na(0, co21). (5.0.1) 


读者 不 难看 出 ， 对 于 Cov(e) = o?5, 2 完全 已 知 的 情形 ， 用 上 章 用 过 的 方法 ， 即 用 
了 左 乘 原 模型 ， 就 化 成 了 (5.0.1). 因此 本 章 的 所 有 结论 可 以 毫 无 困难 地 推广 到 
Cov(e) = o?5, 区 完全 已 知 的 情形 . 


85.1 线性 假设 的 检验 


我 们 先 简要 介绍 一 般 的 似 然 比 检验 原理 ， 然 后 把 它 应 用 于 模型 (5.0.1) 的 线性 
假设 检验 ， 设 随机 向 量 y 服从 参数 为 be © 的 概率 分 布 族 ， 考 虑 参数 检验 问题 ， 
Ho: 9 € 6o 对 到 : 9E80, 这 里 6o 为 6 的 一 个 子 集 ， 记 L(0; y) 为 似 然 函 数 ，6 为 
9 的 ML 估计 . 6 是 原 假设 Ho: 9 e ee 成 立时 9 的 约束 ML 估计 .于 是 


sup L(0; y) = L(6; y), 
ece 
sup L(0; y) = L(b; Y), 
eceo 
似 然 比 定义 为 
sup 工 (9; y) 
eee 


L(6; y) 
ey a dr 
mp L(0; y) bm; y) 


显然 , 和 (y) > 1, 因为 L(6m; y) 是 原 假设 成 立时 ， 观 察 到 样本 点 y 的 可 能 性 的 一 个 
度量 ， 当 在 和 (y) 比较 大 时 ， 则 L(6y; y) 相对 较 小 ， 即 原 假设 成 立 观察 到 样本 点 
y 的 可 能 性 较 小 ， 自 然 地 ， 在 A(y) 较 大 时 拒绝 原 假设 ， 于 是 取 检 验 的 拒绝 域 形 为 
{y: 和 (y) > c}, 这 里 e 是 一 个 待定 常数 ， 在 具体 问题 中 ， 为 了 方便 求 检验 统计 量 的 
分 布 ， 往 往 需要 求 分 布 已 知 的 My) 的 单调 函数 G(y). 例如 ， 若 统计 量 G(y) 是 A(y) 
的 单调 增 函 数 ， 则 检验 的 拒绝 域 取 为 {y: G(y > c}. 这 样 得 到 的 检验 称 为 似 然 比 检 
验 (likelihood ratio test). 
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对 于 正 态 线性 模型 (5.0.1), 考虑 齐 次 线性 假设 
HB=0 (5.1.1) 
的 检验 问题 ， 这 里 rk(Hmxp) = mm M(H') C M(X'), 即 8H6 为 m 个 线性 无 关 的 可 
估 函 数 . 在 以 后 的 章节 中 我 们 将 会 看 到 ,实际 应 用 中 许多 感 兴趣 的 问题 都 可 以 归结 
为 形 如 (5.1.1) 的 假设 检验 问题 . 
未 知 参数 9 = (8, o?) 的 似 然 函数 为 


5 = 18, 059) = (2) -sor exp (~2haly ~ XN) 


采用 84.1 和 84.2 记号 ， 记 


-OCX 到- 用 -Xp 
n 


Bn=B- XH X) EB Xu, 
它们 分 别 是 对 应 参数 的 ML 估计 和 约束 ML 信 计 . 这 里 要 说 明 ,在 Bs 中 所 各 的 和 
阵 (CXX)- 有 是 可 志 的 . 这 是 因为 我 们 假定 了 rk(Hzp) = m， ME) CM(X'), 
故 及 (XX)- 本 与 所 全 广义 道 选择 无 关 ， 于 是 我 们 可 取 一 个 可 间 的 广义 过 


对 似 然 函 数 L(9; y) = L(8, o?; y) 对 应 的 极 值 问题 


ge S$ 时 
Sp HP,0) = LB = (Ee) lx" 全 区 
4 2 2re\ 3 E 
mep (po y) = L(Bn, 5h; y) = (至 ) ly— XBul", (5.1.3) 
似 然 比 为 
sup L(B,0?; y) 于 
MD) = Lb) ( 必 =Xanl 
Ba L(B,o?; y) L(Bn, 6%; Y) lly — XBI2 " 
记 


SS。 = |ly 一 XBl>, 表示 模型 残 差 平方 和 ， 
SS = |ly 一 XBgl>, 表示 模型 在 约束 HB = 0 下 的 残 差 平方 和 ， 


(QW -1) = SE (5.1.4) 


nr 
m 


F= 


显然 ， 下 仅 依赖 于 和 (y) 且 为 (y) 的 严 增 函 数 . 
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定理 5.1.1 设 HB 为 m 个 线性 无 关 的 可 估 函 数 ， 则 

(1) SS。 ~ oa?2x2_,, 其 中 7 = rk(X); 

(2) SSue - SS。 = (HB)(H(X'X)-H)- (HB) ~ o?x2,s， 其 中 非 中 心 参数 
6= (HB) (H(X'X)-H) (HB)/o’; 

(3) SSy - SS。 与 SS。 相互 独立 ; 

(4) 当 线性 假设 了 8 = 0 为 真 时 ， 已 Fn_r 

证 明 (1) 在 定理 4.1.4 已 证 . 

全 记 腑 二 和 XM AD XA=X(X'X)-HA(H(X'X)-H)-1H, 利用 By 的 定 
义 及 (I-Px)4=0, 有 


SSae = lly - XBnl? 

= lly— XB+ A 
ly— XP? +2(y — XB) AB + Pr A' AB 
ly — XB? +2y (I — Px)AB + PB'A'AB 
= SSe + PB'A'AB. 


因为 M(H') C M(X), 于 是 414 = H'(H(X'X)-H')-!1H. 上 式 变 为 
SSye = SS。 + (HB)'(H(X'X)-H')-'(HA). 
此 即 (2) 的 前 半 部 分 ,至 于 SSue 一 SS。 的 分 布 易 从 HB ~ N(HB,o?H(X'X)~H'), 


式 (H(X'X)-H') = mm 以 及 定理 3.4.3 推出 . 
(3) 因为 SS。 和 SSwe SS。 可 以 分 别 表示 为 
Sse = (I — Px)y, 
SSHe — SSe =yX(X'X) H'(H(X'X)-H')IH(X'X)-X'Yy Ey By, 
且 (1 一 Px)B =0, 利用 定理 3.5.2 立 得 SS。 和 SSH。 SS。 相互 独立 . 
(4) 是 (D)~(3) 及 下 分 布 定义 的 直接 推论 ， 定理 证 毕 . 
于 是 线性 假设 有 8 = 0 的 似 然 比 检验 统计 量 的 另 一 个 表达 式 为 


_ (SSye— SSe)/m _ (HP)'(H(X'X)-H)HA)/m 
Re SSe/n—r) 一 SS./ (Rr) s (5.1.5) 


依 似 然 比 检验 方法 ， 对 于 给 定 的 显著 性 水 平 a(0 < a < 了), 车 > 本 sr(ah， 
则 拒绝 假设 HB8 = 0; 车 已 < Fm, 。-,(a), 则 接受 假设 有 HB = 0, 这 里 瓦 ， (a) 表示 
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自由 度 为 m, n 的 下 分 布 的 上 侧 a 分 点 .以 后 我 们 称 (5.1.5) 的 下 为 统计 量 ， 
称 对 应 的 检验 为 下 检验 . 
取 定 显著 性 水 平 a(0 < a < 1), 上 面 的 下 检验 的 功效 函数 (power function) 为 


Fm, n-r(o) 
(Ba2) = P(F > Fn, nr(o)|HB #0)=1 -/ fm, n-r, si(z)dz， 


这 里 fmn_ns(z) 表示 自由 度 为 m, n 一 r 、 非 中 心 参数 为 6 的 所 分 布 的 概率 密度 函 
数 .对 给 定 的 m 和 nr, 这 个 功效 函数 只 依赖 于 非 中 心 参数 5 = a-2(HB)'(H(X'X)- 
瑟 )-1HB, 且 是 它 的 单调 增 函 数 . 

从 理论 上 可 以 证 明 : 对 给 定 的 显著 性 水 平 a, 在 一 定 的 检验 类 中 ， 下 检验 一 致 
地 具有 最 大 功效 函数 ， 即 它 是 一 致 最 优 检验 (uniformly most powerful test). 最 早 研 
究 这 个 问题 的 是 我 国 著名 统计 学 者 许 宝 驿 教授 , 许 的 结果 后 来 又 由 Wald 改进 . 有 
关 这 方面 的 讨论 ， 可 参考 文献 [26], p. 474 及 文献 [36], p. 106. 

上 面 讨论 的 是 齐 次 线性 假设 的 检验 问题 , 对 于 模型 的 非 齐 次 线性 假设 HB = d,， 
容易 化 为 齐 次 的 情形 .这 里 仍 假定 rk(Hmxp) = m, M(H') c M(X”), 且 HB=d 
相 容 .事实 上 , 设 Po 为 HB = d 的 任 一 特 解 , 记 9= B- Po, 将 6=90+ fo 代入 原 
模型 ， 得 到 新 模型 

z= X0+e, e~ Nn(0, o?D), 


其 中 > =4 一 Xp0. 显然 HP = d 等 价 于 H9 = 0, 利用 前 面 的 结果 不 难 推出 如 下 结 
论 . 

推论 5.1.1 ”对 于 相 容 非 齐 次 线性 假设 HB = 由 rk(H) = m, M(H') C M(X'), 
有 

(1) SSae - SS。 = (HB — d)(H(X'X)-H')-!(HB - d) ~ o2x2,, 5， 其 中 非 中 心 
参数 5 = (HB -ad)'(H(X'X)-H')-!(HB ~ d)/o?. 


(2) 当 HB = d 为 真 时 ， 
_ (HA- d(H(X'X)-H)-AU(HP -ad)/m 
F= SSe/(n —r) ~ Fm, nm (5.1.6) 
这 里 + = tk(X). 


最 后 ， 我 们 讨论 关于 F 统计 量 的 计算 问题 对 于 F 统计 量 表达 式 中 的 SS。 和 
SSue, 实际 中 多 采用 下 面 的 计算 公式 : 


Sse =|ly— XB? = yy ~ PX'y, (5.1.7) 


SSne = ly— XbalP =yy— PBX’'y. (5.1.8) 
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(5.1.7) 的 证 明 比 较 简单 ， 下 证 (5.1.8). 从 84.2 知 ， 8 在 条 件 HB = 0 下 的 约束 LS 
解 br 满足 方程 组 


X'XBn + HA= X'y, 
HBn =0, 


其 中 和 为 拉 氏 乘 子 ， 利 用 此 事实 ， 有 
SSae = lly— XBal? = (yy — ByX'y) + BX XB — BX'y 
= (yy 一 的 了 人 十 的 (Xp -XY) = (yy -BxXy) + HN 
=yy— PX'y. 


(5.1.8) 得 证 . 

(5.1.7) 式 中 Br'X'y 等 于 未 知 参数 8 的 LS 解 与 正则 方程 右 端 向 量 X'y 的 内 
积 ， 表示 了 数据 平方 和 yy 中 能 够 由 因 变 量 y 与 自 变 量 X1,…,X, 的 线性 关系 所 
能 解释 的 部 分 ， 称 为 回归 平方 和 (regression sum of squares, 简 记 为 RSS). 这 个 术 
语 来 自 线性 回归 模型 ， 为 方便 计 ， 在 讨论 一 般 线性 模型 时 我 们 也 采用 这 个 术语 . 
于 是 记 RSS(8) = Pr'X'y, 若 需 明确 指出 是 关于 哪些 参数 的 回归 平方 和 时 ， 也 记 为 
RSS(B1,…, Bp). 于 是 (5.1.7) 可 以 改写 为 


SS。 = yy — RSS(D)， (5.1.9) 


即 残 差 平方 和 等 于 总 平方 和 减 去 回归 平方 和 . 类 似 地 ， 有 5 X'y 称 为 约束 条 件 HB = 0 
下 的 回归 平方 和 ， 记 为 RSSz(B) 或 RSS#(B1,…,B,). 相应 地 ， (5.1.8) 变形 为 


SSHe =yy— RSSn(B). (5.1.10) 


综合 (5.1.9) 和 (5.1.10), FF 统计 量 (5.1.5) 具有 形式 


F = (RSS(O) -RSS (B)/m 


SS 人 (5.1.11) 


于 是 FF 统计 量 的 分 子 为 增加 了 约束 条 件 HB = 0 之 后 ， 回 归 平方 和 所 减少 的 量 除 
以 m, 而 m 作为 分 子 的 自由 度 ， 等 于 线性 假设 有 B = 0 所 含 的 独立 方程 的 个 数 . 
另外 , 关于 约束 残 差 平方 和 SSae 的 计算 , 我 们 还 经 常 采用 把 约束 条 件 HB = 0 
“融入 ”到 原 模型 ， 从 而 把 原 模型 化 为 一 个 无 约束 的 线性 模型 ， 称 其 为 约 简 模型 . 
约 简 模型 和 有 附加 约束 的 原 模型 等 价 ， 其 残 差 平方 和 等 于 原 模型 的 约束 残 差 平方 
和 . 具体 方法 参见 例 5.1.1. 
例 5.1.1 同一 模型 检验 
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假设 我 们 对 因 变 量 Y 和 自 变 量 Xi,… ,Xp-: 有 两 批 独立 的 观察 数据 .对 第 一 
批 数据 ， 有 线性 回归 模型 


区 = +B Drat.+B mipite, = 
而 对 第 二 批 数 据 ， 也 有 线性 回归 模型 
YW = BY +B at + Brip +e i=n tl, ,nt+n, 


其 中 所 有 误差 ei 都 独立 ， 且 服从 N(0，o?). 现在 的 问题 是 ， 考 察 这 两 批 数据 所 反 
映 的 因 变量 Y 与 自 变量 X1,…,X,_1 之 间 的 依赖 关系 是 不 是 完全 一 样 ， 也 就 是 要 
检验 模型 中 的 系数 是 否 完全 相等 ， 即 检验 60 = Bf i=0,1,…,p 一 1. 

这 个 问题 具有 广泛 的 应 用 背景 例如， 这 两 批 数据 可 以 是 同一 公司 在 两 个 不 
同时 间 段 上 的 数据 ， Y 是 反映 公司 经 济 效益 的 某 项 指标 ， 而 自 变量 Xi …,X， 
是 影响 公司 效益 的 内 在 和 外 在 因素 .那么 我 们 所 要 做 的 检验 就 是 考察 公司 效益 指 
标 对 诸 因素 的 依赖 关系 在 两 个 时 间 段 上 是 否 有 了 变化 ， 也 就 是 所 谓 经 济 结构 的 变 
化 . 又 艾 如 ， 在 生物 学 研究 中 有 很 多 试验 花费 时 间 比较 长 ， 而 为 了 保证 结论 的 可 千 
性 ， 又 必需 做 一 定数 量 的 试验 .为 此 ， 很 多 试验 要 分 配 在 几 个 实验 室 同时 进行 ,这 
时 ,前 面 讨论 的 两 批 数据 就 可 以 看 作 来 自 不 同 实验 室 的 观察 数据 , 而 我 们 检验 的 目 
的 是 考察 两 个 实验 室 所 得 结论 有 没有 差异 ， 类 似 的 例子 还 可 以 举 出 很 多 . 

为 了 导出 所 需要 的 检验 统计 量 ， 我 们 首先 把 上 面 的 两 个 模型 写成 矩阵 形式 ， 


=XiBite, el~ NO az)， 
yz = X2b2 +e2， ez ~ N(0, o?1n,). 
其 中 所 含 和 矩阵 的 意义 是 不 言 自明 的 ， 将 它们 合并 ， 便 得 到 如 下 模型 : 


El X 0 A el el 
= + y ~ N(0, 02 In tm)， 
Yo 0 xX» Bb e2 e2 


(5.1.12) 


i = (Ip: 1) 区 =0, (5.1.13) 
Bb Bb 


其 中 为 五 = (I : 一 五 ). 若 记 房 ,应 为 从 模型 (5.1.12) 得 到 的 LS 估计 ， 则 


-1 
By {Xx o .01 妨 
应 六 0 双 如 


我 们 要 检验 的 假设 为 


85.1 线性 假设 的 检验 “2” 
(Cj 0 Xin | _{ XX Xiy 
i (SX) -1 Xv 


B=(XIX) Xn B= (XX2)- Xiy. (5.1.14) 


应 用 公式 (5.1.7), 得 到 残 差 平方 和 


于 是 


SS。 = Yi + Wy — BXIy — Xsy. (5.1.15) 


为 了 求 约束 条 件 (5.1.13) 下 的 残 差 平方 和 SSue, 我 们 应 用 前 面 提 到 的 把 约束 
条 件 “ 融 入 ”模型 的 方法 ， 当 (5.1.13) 成 立时 ， Bi = Bz, 记 它 们 的 公共 值 为 b, 代 
入 原 模型 (5.1.12), 得 到 约 简 模 型 


(人 je 人 (人 


从 这 个 模型 求 得 的 8 的 无 约束 的 LS 估计 ， 也 就 是 原 模型 中 6; 在 约束 条 件 (5.1.13) 
下 的 LS 估计 ， 
Bn = (XX + XEX2) (XIy + Xbyz). 
故 原 模型 的 约束 残 差 平方 和 为 
SSye = Yn + Wy — Ph (Xiy + Xsy2). (5.1.16) 
从 (5.1.15) 和 (5.1.16) 得 到 
SSne — SSe =PBiXiy + PBXsy2 — P(Xiys + Xsy2) 
=( 抽 -By)Xiy +( 记 一 Br)' Xsy2. 
至 此 ， 我 们 求 到 了 检验 统计 量 
_ _(SSxe — SSe)/p 
5Se/(n1 + n2 — 2p) 
中 的 分 子 与 分 母 的 具体 表达 式 . 据 此 ， 我 们 可 以 对 假设 81 = Bz 作出 检验 ， 对 给 定 
的 水 平 a, 若 > ,n+ns-2p(a), 则 拒绝 原 假设 ， 即 认为 两 批 数据 不 服从 同一 个 
线性 回归 模型 否则， 我 们 认为 它们 服从 同一 个 线性 回归 模型 . 
例 5.1.2 两 个 正 态 总 体 均 值 相 等 的 检验 


设 妇 ， ,un 和 wans 分 别 为 来 自 正 态 总体 NUa，c2) 和 N(j2, 0?) 的 
简单 随机 样本 ， 试 导出 检验 假设 yi = jo 的 统计 量 . 
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解 ” 将 旭 ,……un 和 wn,…,vns 表示 为 线性 模型 形式 : 


让 = 证 et， ee~N0,o0), i=b,m, 


vi=pjatemtis emti~N(0, 0), 了 = 
用 矩阵 表示 为 
ul 1 0 el 
u Uny 1 0 A1 en 
= = 弟 
vy Ta ol Ha Enit+1 
Vnz 0 1 Emtnz 
定义 


| 
( g ) ( ) ( ) 
”7 He)xa 0 ys 后 


下 面 我 们 检验 HB = (1, -1)8= jn 一 yp2=0, 这 里 H=(1, 一 1). 
因为 rk(X) = 2, 所 以 8 可 估 ， 其 LS 估计 为 


6=-| | -ocxorxy=| | 
四 


由 上 章 的 理论 知 ， 喜 和 届 分 别 为 yi 和 pa 的 MVU 估计 . 
因 HA = -jo =-5 SS = yy PX'y= Dw- + 7) 
及 (H(X'X)-1H')"!= (去 十 去 )-1， 故 依 (5.1.5) 得 到 所 求 的 检验 统计 量 为 


这 里 


a 公 一 功 (六 于 省) 站 (- 滁 

il D+ (v0)°)/(ni + na —2) 

_ nina(m + no — 2) 全 一 可? 

二 m+nz Zi(u 一 到 ?十 Zi 一 可 2 


当 认 = 各 时 ， 正 ~ 丽 , tna-2, 等 价 地 ，t= FV/? ~ t+ma-2. 


F 
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$5.2 ”置信 椭 球 和 同时 管 信 区 间 


对 给 定 的 水 平 ， 如 果 线 性 假设 HB = 0 的 FF 检验 是 显著 的 ， 这 说 明 从 现 有 数 
据 看 我 们 不 能 接受 假设 HB = 0. 此 时 ， 我 们 自然 希望 构造 m 个 可 估 函 数 6,1i = 
1,…,m 的 同时 置信 域 ， 这 里 H' = (各 ，… hm). 本 节 讨 论 构造 置信 域 的 几 种 常用 
的 方法 . 

5.2.1 置信 椭 球 

考虑 正 态 线性 模型 

y=XB+e, e~ Na(0, c21)， (5.2.1) 

这 里 水 (X) = 假设 理 = HB = (hB，…, 有 i,B)' 为 m 个 线性 无 关 的 可 估 函 数 ， 所 
以 zk()=m, M(H ) C M(X'). 记 启 = (XX)-X'y, 则 钙 = HA 为 的 BLU 估 
计 , 且 


~ Nn($, o2V), 
这 里 V = 及 (X'X)-H' > 0. 根据 推论 3.4.3, 有 
(@—B)V-1(S — ®) ~ ox2,. 
另 一 方面 ， 由 定理 4.1.4 知 ， 对 o? 的 LS 估计 62 = ly 一 XBIP/(n -7), 有 


-nrD62 2 
一 


且 与 鱼 相互 独立 ， 于 是 
(@— EB)V-!($ 5) 刘 
G2 


i Fm, nr: (5.2.2) 


故 对 任意 的 0< a < 1, 有 


多 一 B)V-!( 鲁 — 
P (Ce < Fn, 本 =1-a. (5.2.3) 


因为 88 是 m 个 线性 无 关 的 可 估 函 数 ， 从 而 了 = 及 (X'X)-H' > 0. 故 
= 仔仔 -mV G- 可 <ma2Po nr(a} (5.2.4) 


是 一 个 中 心 在 龟 的 椭 球 ， 由 (5.2.3) 式 知 它 包 含 未 知 的 理 = 太 8 的 概率 为 1 - a 
称 (5.2.4) 定义 的 DD 为 更 的 置信 系数 为 1 - a 的 置信 椭 球 ， 进一步， 将 ® = HB， 
全 = HB, 及 V = 甩 (X'X)-H' 代入 (5.2.4), 置信 椭 球 可 写 为 


(HB — HB)(H(X'X)-H') (HB — HA) < ma?Fn, »_(a). (5.2.5) 
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特别 ， 当 m = 1 时 ， 改 记 有 = ,上 式 变 为 
(RB — AB)? < W(XX)-hOLR, nr(0). (5.2.6) 


注意 到 F 分 布 与 t 分 布 之 间 的 关系 : 所, 。-" = 要 _ ,并 记 tm_r( 针 ) 为 自由 度 为 
n 一 "的 t+ 分 布 上 侧 多 分 点 ， 从 (5.2.6) 立 得 单个 可 估 函 数 kr8 的 置信 系数 为 1 一 a 
的 置信 区 间 


(WB tn, (F)o VE XE, WB +tn-r(F)o VENER) . (5.2.7) 


注意 到 ， 上 式 中 Var(h'6) = o?h(X'X)-h, 于 是 9VR(XIX)-h 是 hi 的 标准 
差 的 估计 .因而 记 65,8 = 5VR(XIX)-h, 上 式 区 间 变 为 


(Gs NB+tn-r( 人 2)aw6) (5.2.8) 


有 时 简 记 为 以 8 士 如 -r( 史 )5wp 

例 5.2.1 ”未 知 参数 的 置信 椭 球 及 均值 函数 的 置信 区 间 

对 于 正 态 线性 模型 (5.2.1), 设 水 (X) = p, 即 线性 模型 设计 矩阵 为 列 满 秩 ， 在 
(5.2.5) 中 取 五 = ,显然 满足 条 件 M(H') C M(X'), 依 (5.2.5), 未 知 参数 6 的 置 
信 系数 为 1 ~ a 的 置信 椭 球 为 


(B—AP)'X'X(B -PB) < po?F,, np(o). 
依 (5.2.7), 均值 函数 f(z) = z'8 的 置信 系数 为 1 -a 区 间 估计 为 
(#8- tn-s (2)S VE RI, zB+ tn-p (3)9 VT KITz) . (5.2.9) 


从 几何 的 观点 看 ， 如果 用 i(z) 和 f(z) 分 别 记 (5.2.9) 式 中 的 区 间 的 上 下 两 个 
端点 ， 则 当 z 在 Rr 内 流动 时 ， Re+! 中 的 点 (z', 广 (z)) 和 (z', 户 (z)) 分 别 画 出 曲 
面 和 Lz, 曲面 4 和 1z 把 经 验 平面 y= z'f 夹 在 当中 

需 特别 指出 的 是 ， 只 是 对 固定 的 z, z'8 落 在 区 间 (5.2.9) 内 的 概率 为 1 -a. 但 
对 于 多 个 > 值 ，z'6 同时 落 在 各 自 对 应 的 区 间 (5.2.9) 内 的 概率 将 不 再 为 1 - oa 而 
会 低 于 1 一 a. 即 , 平面 f(z) = z'B 夹 在 曲面 和 15 中 间 的 概率 要 小 于 1 -a. 若 仍 
想 保持 这 一 概率 , 则 必须 把 区 间 (5.2.9) 拉 长 ， 即 把 曲面 li 和 1s 分别 上 移 和 下 移 . 
下 面 就 来 讨论 此 问题 . 


5.2.2 ”同时 置信 区 间 


在 同一 个 线性 模型 下 ， 有 时 要 对 多 个 可 估 函 数 作 同时 区 间 估计 ( 或 称 联 立 区 
间 估计 ), 下 面 介绍 两 种 求 同 时 置信 区 间 的 方法 . 


85.2 置信 椭 球 和 同时 置信 区 间 SE 


1. Scheffé 区 间 
引 理 5.2.1 设 a 和 6 均 为 nx 1 的 向 量 ，4 为 nxn 正定 方 阵 ， 则 


引 理 易 从 Cauchy-Schwarz 不 等 式 (a'b)? < a'4-1a. 5Ab 推出 . 
在 (5.2.3) 中 视 旬 一 更 和 T 分别 为 引 理 5.2.1 中 的 和 4, 有 


1-a=P((@-®)V-!(®— ®) < ma?Fn. nr(a)] 
A 2 

= P(supuro 他 人 < mo?Fn, nr(a)) 

lv'(® — &)| 5 要 
= Bp < (me?Pm, nr(a))Y2, 对 一 切 b 关 0 
= P(lv@ — 6'$| < (mFm, nr(a)) /26(0H(X'X)-H'b)1/?2, 对 一 切 b# o). 

(5.2.10) 
若 记 1= H'b, 则 by 更 = 26, b= 725, (5.2.10) 式 变形 为 


1-a= P(rB -LB| < (mFn, nr(a)) M26(L(XX)-L)1/2, 对 一 切 1e M(H')) 
二 P(rB ELB+ (mFn, nr(o))!/26(L(XX)-D)Y2, 对 一 切 1€e M(H')). 


由 此 得 到 以 下 定理 . 
定理 5.2.1 ”对 于 正 态 线性 模型 (5.2.1), 若 rk(H) = m, M(H') c M(X'), 则 
对 一 切 可 估 函 数 6, !e M(H'), 其 置信 系数 为 1 - a 的 同时 置信 区 间 为 


LB + (mFm, n_r(o) ?aXX) -LD)Y?. (5.2.11) 


导出 (5.2.11) 的 方法 是 由 Scheffe 于 1953 年 提出 的 ， 所 以 (5.2.11) 通常 称 为 
Schefle 区 间 . 特别 ， 若 m = = 水 (X), 则 我 们 得 到 所 有 可 估 函 数 18 的 同时 置信 
区 间 

LB 4 (rE nr(oa) V6 (XX) DY. (5.2.12) 


需 特别 强调 的 是 ， Scheffs 区 间 并 不 是 一 个 或 若干 个 可 估 函 数 的 同时 区 间 估 
计 ， 而 是 无 穷 多 个 可 估 函 数 LB, ! < M(H') 的 同时 区 间 估计 . 当然 在 实际 应 用 上 ， 
人 们 往往 只 对 有 限 个 可 估 函 数 感 兴趣 , 这 时 若 采用 Scheffe 区 间 , 常常 会 嫌 其 偏 长 . 
Sche 方法 的 优点 是 ， 它 适用 于 所 有 的 线性 模型 (5.2.1), 对 设计 阵 无 任何 限制 ， 应 
用 范围 较 广 . 
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2. Bonferroni 区 间 

求 m 个 可 估 函 数 及 6, i = 1,…,m 的 同时 区 间 估 计 的 另 一 种 简单 方法 是 Bon- 
ferroni 方法 . 

用 公式 (5.2.8) 对 每 个 hi8 作 和 置信 系数 为 1 - a 的 置信 区 间 


B= (MB-tnr(F)oma MBttnr(F)om8), = m (5.2.13) 
虽然 每 个 区 间 i 包含 六 的 概率 是 1 - a 但 是 及 B e ,i = 1,…,m 同时 成 立 的 


概率 ( 即 置信 系数 ) 却 不 再 是 1 - % 一般 比 1 - a 要 小 . 
事实 上 , 设 妃 ,i= 1,…,m 为 m 个 随机 事件 ，P(E;) =1--a,i=1,…,m. 则 


P( 广 四) =1-P( 全 E)= 1-P(UB) > 1_ P(E) = Td (5.2.14) 
i=1 i=l i=1 i=1 


i=1 
这 个 不 等 式 称 为 Bonferroni 不 等 式 . 
车 取 BE = {MB € 上}, 则 ai = a 于 是 由 (5.2.14) 得 到 


Plhipel, i=l,,m)2>1-ma. 


当 mm 较 大 时 , 这 个 概率 的 下 界 可 以 很 小 . 为 了 克服 这 一 缺陷 , 一 种 办 法 是 在 (5.2.13) 
式 中 换 a 为 名, 即 取 


(MB tn-r (2 ) oma MB + itn-r (on8), i=1,...,m, (5.2.15) 


从 而 每 个 区 间 I 包含 及 8 的 概率 提高 到 了 1 名 , 依 Bonferroni 不 等 式 (5.2.14), 有 


P(1B Eh,i=l,,m)>1-a. 


通常 称 (5.2.15) 为 Bonferroni 区 间或 Bonferroni t 区 间 . 它 的 置信 系数 等 于 1a 
当 m 比较 大 时 ，tn-r( 误 ) 也 比较 大 , 于 是 每 个 区 间 到 比较 长 ， 这 是 Bonferroni 区 
间 的 一 个 缺点 ， 当 mm 很 大 时 ， Bonferroni 区 间 会 长 得 失去 应 用 价值 ， 这 时 可 用 增 
加 a 来 缩短 区 间 ， 但 此 时 区 间 估计 的 可 靠 度 下 降 . 

把 Bonferroni 法 和 Scheffe 法 比较 起 来 ， 虽 两 者 均 可 用 于 较 广泛 的 线性 模型 ， 
但 一 般 说 来 ， 后 者 优 于 前 者 ， 然 而 m 较 小 时 ， Bonferroni 区 间 要 好 些 ， 这 两 种 方 
法 在 后 面 几 章 中 将 多 次 用 到 . 


85.3 预测 


所 谓 预测 ， 就 是 对 指定 的 自 变量 的 值 ， 预 测 对 应 的 因 变 量 所 可 能 取 的 值 从 第 
一 章 我 们 知道 ， 在 线性 模型 中 , 自 变量 往往 代表 一 组 试验 条 件 或 生产 条 件 或 社会 经 
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济 条件 , 由 于 试验 或 生产 等 方面 的 费用 或 试验 周期 长 的 原因 , 在 我 们 根据 以 往 积累 
的 数据 获得 经 验 模型 后 ， 希 望 对 一 些 感 兴趣 的 试验 、 生 产 条 件 不 真正 去 做 试验 ， 而 
利用 经 验 模型 就 对 应 的 因 变 量 的 取 值 做 出 合理 的 估计 和 分 析 , 可 见 , 预测 是 普遍 存 
在 着 的 一 个 很 有 意义 的 实际 问题 . 和 估计 一 样 , 预测 也 有 点 预测 和 区 间 预 测 之 分 ， 
我 们 先 讨论 点 预测 . 


5.3.1 点 预测 
已 知 历史 数据 服从 以 下 线性 模型 
y=XB+e, Ele)=0, cov(e) = o2Z， (5.3.1) 


这 里 y 为 n x1 观测 向 量 ，rk(Xnxp) =7, 允 为 已 知 正定 阵 ， 假设 我 们 要 预测 m 个 
点 zoi = (Zoa,… ,Zoip), i = 1,…,m 所 对 应 的 因 变量 yoi, i = 1,.…m 的 值 ， 且 已 
知 yo 和 历史 数据 服从 同一 个 线性 模型 ， 即 


Wai =z08+eo， 一 1 


采用 矩阵 形式 ， 则 这 个 模型 变 为 


如 = XoB+eo, Eleo)=0, Cov(eo) = 27o， (5.3.2) 
这 里 
yol Tol zolp Eol 
加 = ， Xo= ，€0= 
Yom Toml +:. Tomp EOm 


本 节 我 们 总 假设 M(X6) Cc M(X'). 从 接 下 来 的 讨论 读者 可 以 明白 这 一 假设 的 必要 
性 . 
1. 被 预测 量 与 历史 数据 不 相关 情形 
我 们 先 考虑 被 预测 量 yo 与 历史 数据 y 不 相关 的 简单 情形 , 这 时 Cov(e eo) = 0. 
因为 B(eo) = 0, 所 以 一 种 很 自然 的 做 法 是 ， 用 EE(yo) = Xo8 的 估计 作为 yo 的 预 
测 ， 即 用 
将 = Xo = Xo(X'T-IX)-X'D-1ly (5.3.3) 


预测 yo, 这 里 8* = (XD-1X)-X'5-!1y 是 从 (5.3.1) 导出 的 8 的 GLS 解 ， 因 为 我 
们 假设 了 M(X&) C M(X'), 所 以 XoB 是 可 估 的 并 且 (5.3.3) 和 所 含 广义 逆 的 选 法 
无 关 . 
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预测 量 (5.3.3) 有 以 下 性 质 ， 

(1) 预测 站 是 无 偏 预测 . 这 里 “无 偏 ”的 含义 是 预测 量 与 被 预测 量具 有 相同 的 
均值 ， 即 EB(yi - 加 ) = 0, 这 不 同 于 前 面 在 参数 估计 讨论 中 的 无 偏 性 ， 因 为 此 时 被 
预测 量 也 是 随机 变量 . 

(2) 车 Cov(e,e0) = 0, 则 Ww 在 一 切线 性 无 偏 预测 中 具有 最 小 预测 均 方 误差 (证 
明 见 下 文 ). 

这 里 需要 特别 强调 的 是 ， 虽 然 从 形式 上 讲 ， yo 的 预测 量 ys = XoB" 与 参数 函 
数 no = XoB 在 模型 (5.3.1) 下 的 最 小 二 乘 估计 沾 = XoB* 完全 相同 ， 但 它们 的 实 
际 意 义 却 不 同 ， 若 我 们 引进 预测 偏差 z = 胡 yo, 和 估计 偏差 d = /局 一 po, 并 计算 
它们 的 协 方差 阵 ， 就 可 以 清楚 这 一 点 .因为 Cov(e,so) = 0, 所 以 


Cov(z) = Cov(W%) + Cov(yo) = o2(Zo + Xo(X'D-1X)-X!). 


男 一 方面 
Cov(d) = Cov(18) = o?Xo(X'D-1X)- Xs. 
因此 ， 总 有 Cov(z) > Cov(d). 这 样 的 差别 来 源 于 被 预测 量 yo 为 随机 变量 ， 而 被 估 
计量 po 为 非 随机 变量 . 
特别 ， 当 忆 = 了 工时 ， 或 了 未 知 而 用 了 代替 时 ， 用 LS 解 语 = (X'X)-X'y 代替 
B", (5.3.3) 变 为 
加 = Xo = Xo(X'X)-X'y， 


它 也 是 无 偏 预测 . 
2. 被 预测 量 与 历史 数据 相关 情形 一 最 优 预测 


前 面 我 们 假定 了 yo 与 y 不 相关 ， 但 在 某 些 情况 下 ， yo 与 y 确实 具有 一定 的 
相关 性 ， 这 种 相关 性 可 以 用 Cov(e,so) = o?V' 关 0 来 度量 ， 这 时 


人 -人 | (5.3.4) 
yo V Bo 


下 面 我 们 讨论 如 何 利用 这 种 相关 性 信息 得 到 更 好 的 预测 . 


设 加 = Cy 为 yo 的 一 个 线性 无 偏 预测 ， 用 所 谓 广义 预测 均 方 误差 (generalized 
prediction MSE, 简 记 为 PMSE) 


PMSE(#0) = 已 (加 一 加) A(io — yo) 


85.3 预 测 i 


来 度量 如 的 优 劣 ， 这 里 4 > 0. 应 用 定理 3.2.1 得 


PMSE( 加 ) = 已 (前 4 加 — WANo — WAYo + WAYo) 
= PB'X'C'ACXPB + otr(C'ACE) — 28' XL ACXB 
—o?2tr(ACV) + PB' Xs AXoB + oztr(42) 
= B(CXK — Xo A(CX - Xo)B + otr(A(CEC' + Eo — 2CV)). (5.3.5) 


因为 加 = Cy 为 yo 的 一 个 无 偏 预 测 ， 故 
E(Cy — yo) = CXB - Xo8 = 0, 对 一 切 8 成立 > CX = Xo. 

代入 (5.3.5), 得 

PMSE(%) = cztr(4(CZC' + Zo — 2CV)). (5.3.6) 
欲 加 = Cy 为 yo 的 在 广义 预测 均 方 误差 意义 下 的 最 优 线性 无 偏 预 测 (best linear 
unbised predictor, 简 记 为 BLUP) , 则 等 价 于 在 条 件 CX = Xo 下 求 (5.3.6) 的 最 小 
值 . 

现在 应 用 Lagrange 乘 子 法 求解 这 个 极 值 问题 ， 构 造 辅助 函数 


下 (C,A) = oztr(4CZC' ~ 24CV) — 2tr(CXA), 


这 里 Amxn 为 拉 氏 乘 子 .由 矩阵 求 导 知识 得 


Otr(ACEC') _ 
5 = 240Y, 


atr(4CV) 
55 
Otr(XAC) 
5C 
于 是 ， 对 F(C,A) 关于 C,A 求 微 商 ， 并 令 其 为 零 ， 得 到 


= AV, 


= MX'. 


EC'A=VA+XA/o’, (5.3.7) 
CX = Xo. (5.3.8) 


由 (5.3.7), 得 到 
C= Fo (5.3.9) 


代入 (5.3.8) 整理 得 
A'X'P-1X = 4(Xo — VE-1X)o?. 


因为 M(X6) C M(X'), 即 Xo8 为 可 估 函 数 ， 此 方程 相 容 ， 其 解 为 


A' = o24(Xo — VD-1X)(X'P~1X)-. 
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代入 (5.3.9), 得 到 
以 = 9. 
于 是 ， 所 求 y 的 BLUP 为 
加 =Cy= Xo +VZ-I( — Xp), (5.3.10) 


其 中 8* = (XZ-IX)-X'Z-1y. 至 此 我 们 证 明了 以 下 定理 . 

定理 5.3.1 ”对 模型 (5.3.1) 和 (5.3.2), 若 Cov(e,e0) = o?V, 且 X08 在 模型 
(5.3.1) 下 可 估 ， 则 yo 在 广义 预测 均 方 误差 意义 下 ， BLUP 为 (5.3.10). 特别 ， 当 
V =0 时 ，BLUP 为 (5.3.3). 

比较 (5.3.3) 和 (5.3.10), 我 们 看 到 (5.3.10) 右边 的 第 二 项 是 由 被 预测 量 与 历史 
数据 的 相关 性 引起 的 预测 的 改进 量 ， 在 实际 应 用 中 ， 往 往 V 和 了 是 未 知 的， 一 种 
常用 的 作法 是 代 之 以 它们 的 某 种 估计 .这 样 得 到 的 量 尽管 不 再 是 BLUP, 甚至 于 它 
根本 不 是 线性 的 ， 但 是 为 方便 计 ， 人 们 把 它 称 为 经 验 BLUP. 

在 应 用 上 ，m = 1 是 一 个 重要 的 特殊 情形 ， 若 我 们 欲 预测 yo = z6B + e, 记 


I 
Cov 一 02 2 
yo ol2 022 


则 yo 的 BLUP 为 
= 700" +o 1(y ~ XA"). 


5.3.2 区 间 预 测 


所 谓 区 间 预 测 ， 就 是 找 一 个 区 间 ， 使 得 被 预测 量 的 可 能 取 值 落 在 这 个 区 间 内 
的 概率 达到 预先 给 定 的 值 . 在 应 用 上 ， 有 时 因 变 量 的 区 间 预 测 更 为 人 们 所 关注 . 例 
如 ， 在 经 济 活动 中 ， 我 们 往往 希望 预测 下 一 个 月 某 产品 的 销售 量 在 一 个 怎样 的 范 
围 , 而 在 工程 技术 中 , 设计 者 想 知道 新 产品 的 某 项 性 能 指标 大 概 会 落 在 一 个 什么 样 
的 区 间 内 等 等 . 

在 讨论 区 间 预 测 时 ， 我 们 需要 假定 误差 服从 正 态 分 布 ， 即 e ~ Nn(0，o22)， 
人 ~ Nm(0, ?50). 为 符号 简单 计 ， 仅 考虑 了 = 0 的 情形 ， 对 V > 0 的 情形 ， 可 以 
用 完全 相同 的 方法 去 做 . 

在 误差 正 态 条 件 下 ， 预 测 偏差 


z= -yo~ Nm(0, 0°(Po + Xo( XT-1X)- XE)). (5.3.11) 


和 前 面 一 样 ， 假 设 M(X6) C M(X). 
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1. Bonferroni 型 同时 预测 区 间 
依 定理 3.3.5 知 ， z 的 分 量 


z= — yoi~ N(0, oz(c 和 二 下 (EX)oi)， i= bm, 
这 里 Bo = (at =.… ,mzI(i=1,…,m) 为 Xo 的 mm 个 行 向 量 . 据 此 , 不 
难 推 得 ， 对 固定 的 i, yoi 的 置信 系数 为 1 - a 的 预测 区 间 : 
Patp" — tn-r($)0(ot) + zi(X EIX) i) 2 < yo 
< wh" + tnr(F)S(ol) + zl XE-1X)- zi)Y) =1— a, 
这 里 5 = 一 XB"|P/(n 一 mh = 开 (X). 应 用 Bonferroni 法 ， 我 们 得 到 yoi(i = 
1,…,m) 的 置信 系数 不 低 于 1 -a 同时 预测 区 间 ， 


到 0* 士 br( 关 )a(o + ol(X'E-1X)-zi) i 


2. Scheffe 型 同时 预测 区 间 
利用 Scheffé 法 ， 我 们 也 可 以 得 到 yoi(i = 1,…,m) 的 同时 预测 区 间 ， 暂 记 
M = Zo + Xo(X'F-1X)-X6. 因为 
zw Nm(0, o2M)， 


所 以 “MT-iz ~ o?X%, 且 与 2 相互 独立 ， 故 
zlM-1z 
m6? 
因为 (5.3.13) 与 (5.2.2) 有 完全 相同 的 形式 ， 于 是 应 用 Scheffe 方法 ( 见 (5.2.10) 处 )， 
不 难得 到 


1 (5.3.13) 


P{-(mEmn, n_r(a) /VMI<Uz < (mFm, n-r(o)) 26VVMI, 对 一 切 ![ 关 0}=1-a. 
特别 取 4 = (1,0,…,0),…,l = (0,0,…,1), 得 到 


P{—(mEm, nr(o))Y/26(of) + zi(X'D-1X)-z)/? < a 


< (mFmn, nr(a))M26(afo + zi(XD-IX)-z)Y2, i=1,,m} 21 a. 
于 是 yoil(i = 1,…,m) 的 Scheffé 型 同时 区 间 预 测 为 
218* + (mFmn, sr(a])U26(at + zi( XT-IX)- Zi) = l,m (5.3.14) 


综合 (5.3.12) 和 (5.3.14) 我 们 有 如 下 定理 
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定理 5.3.2 ”对 模型 (5.3.1) 和 (5.3.2), 假设 Cov(e, so) = 0, Xo 在 模型 (5.3.1) 
下 可 估 ， 且 e 和 so 均 服 从 多 元 正 态 分 布 ， 则 
(1) yoili = 1,…,m) 的 置信 系数 不 低 于 1 -a 的 Bonferroni 型 同时 预测 区 间 为 


zB8* 圭 tr (2 (ol 十 形 (X -1X)-zi12， j= 1,..,m. 
(2) yoi(i = 1,…,m) 置信 系数 不 低 于 1 - a 的 Scheffe 型 同时 预测 区 间 为 
zi8" + (mFm, n_r(a) /26(0) + zi(X'P-IX)- 2 = 1 m. 


Bonferroni 型 同时 区 间 预 测 法 和 Scheffe 型 同时 区 间 预 测 法 何者 为 优 ? 从 定理 
5.3.2 不 难看 出 ,此 问题 取决 于 经 _ (部), 即 忆 ,n-r( 郑 ) 和 mFmn-_r(a) 何者 为 大 . 

例 5.3.1 ”一 元 线性 模型 

考虑 一 元 线性 模型 Y = Bo + B1X +e. 设 有 n 组 观察 数据 (yi, zi),i = 1,…,n. 


yi=botBrites, e~N0,0) (i=1,.,n), 


am 相互 独立 记 


Zn 
则 
-| ™ | -| im ) 
Zi Dir? Di ziys 
有 的 LS 估计 为 
B= | = (人 MX) 一 ( es 上 
而 


02 = (yy— PX'Yy)/(n— 2). 


现在 要 对 zoi(i = 1,…,m) 处 因 变量 Y 的 相应 值 yoi(i = 1,…,m) 作 同 时 预 
测 ， 假 定 yoi(i = 1,…,m) 相互 独立 ， 服 从 


yor=fBotBizotes, ei~N(0,0), i=1,..…,m 
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且 与 (= 1 m) 相互 独立 . 
依 (5.3.3), yoi(i = 1,…,m) 的 点 预测 为 


阅 = 房 + 有 ro， i= bm. 


依 定理 5.3.2, yoi(i = 1,…,m) 的 Bonferroni 型 同时 预测 区 间 为 


(zoi 一 五 2 He 


基 站 过 
侈 +Aao)jttn-a( 店 )a(1+ 元 + SR 人 i= l,m. 
1 (Tor 


而 Scheffe 型 同时 预测 区 间 为 
网 ae ， 一 元)2 172 
(ot Broo) (mpn sale) 6(1+ + ta) 


置信 系数 都 不 低 于 1 - a, 其 中 五 = 土工 :zi 
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设计 阵 X 在 线性 模型 的 统计 推断 中 起 着 重要 的 作用 ， 几 乎 所 有 统计 推断 的 结 
果 都 与 X 的 取 值 有 密切 的 关系 .在 前 面 的 讨论 中 ,我 们 总 假定 X 是 给 定 的 , 事实 
上 ， 在 有 些 情况 下 ,试验 者 在 试验 前 可 适当 选择 自 变量 的 取 值 ( 即 设计 试验 点 ), 使 
设计 阵 X 在 统计 推断 中 表现 出 某 种 优良 性 质 , 这 就 是 所 谓 的 最 优 设计 . 它 是 Kiefer 
于 1959 年 首先 提出 来 的 ， 其 后 获得 了 常 足 发 展 ， 本 节 扼要 地 介绍 最 优 设 计 问 题 的 
基本 概念 ， 对 这 一 领域 感 兴趣 的 读者 可 参阅 文献 [60], [96], [37], [47], [85] 和 [73]. 
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对 于 给 定 的 理论 线性 模型 
Y=z'8B+e， (5.4.1) 
其 中 zf = (zzp) B' = (i,…,Bp). 设 自 变量 z 的 取 值 域 (试验 区 域 ) 为 D， 
从 中 任 取 nn 个 点 za),…,z(n), 在 这 n 点 上 进行 观察 (或 试验 ) 得 到 n 个 观察 值 
二 (4,… ,yn), 则 由 (5.4.1), 我 们 便 可 得 到 一 个 线性 模型 
y= XB+e, (5.4.2) 
其 中 设计 阵 X = (z0),…,z(n))'. 所 谓 设计 问题 就 是 研究 如 何在 D 中 选取 n 个 值 
Z(1)，,"…,Z(n); 使 得 设计 阵 X = (z(1),…,z(n)) 具有 某 些 所 要 求 的 性 质 . 
假定 ”是 固定 的 ， 试 验 的 目的 是 为 了 估计 6 线性 函数 


=Hp, (5.4.3) 
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其 中 五 为 m xp 的 已 知行 满 秩 阵 . 设 庆 = {Xnxp: M(X') 2 M(H')}, 即 针 为 由 
一 切 使 鲁 可 估 的 n xp 矩阵 组 成 的 集合 ， 称 之 为 更 的 可 行 设计 集合 所谓 对 理 的 
一 个 最 优 设计 就 是 指 从 区 中 找 一 个 X 使 得 更 的 LS 估计 多 = HB 具有 某 种 优良 
性 . 下 面 介绍 几 种 常用 的 优良 性 准则 . 

1. 4 最 优 准 则 

对 任意 X e ,更 的 LS 估计 为 多 = 百 (X'X)-Xo 它 和 (X'X)- 的 选取 无 
关 ， 依 定理 3.1.3 易 得 


Cov(®) =0°H(X'X)-H' Eo?Vs(X), (5.4.4) 


中 Vs(X) = 五 (X'X)-H'. 对 于 给 定 的 m x m 正定 阵 W, 鲍 的 广义 均 方 误差 为 


GMSE(®)=E($ 一 ®)W(® — §)=0?tr(WH(X'X)-H')ESc?tr(WVs(X)), (5.4.5) 


若 存 在 设计 Xa € + 满足 


tr(WVe(X4)) = wR (WVs(X)), (5.4.6) 
则 称 Xa( 在 W 意义 下 ) 为 4 最 优 . 一 般 取 W = 7 则 (5.4.6) 为 


tr(Va(X4)) = i A 和 (Ve(X)), (5.4.7) 
1 
其 中 和 (Va(X)) 表示 Vs(X) 的 第 i 个 特征 值 ， 显 然 ， 4 最 优 设计 就 是 使 全 的 
均 方 误差 达到 最 小 的 设计 ， 故 4 最 优 准 则 又 称 为 均 方 误差 最 小 准则 ， 进 一 步 ， 若 
式 (X) =p, 五 = 1p, 则 (5.4.7) 可 表示 为 


NE 
tr(XAX4)-! = 由 RD (5.4.8) 


2. 已 最 优 准 则 
、 有 了 时 我 们 关心 所 有 形 如 L' 鲁 (M1 = 1) 的 可 估 函 数 的 估计 问题 .更 的 LS 估计 
L@ 的 方差 为 
Var(L'®) = o2L'Ve(X)L. (5.4.9) 
依 定理 2.4.1 得 
Wax! Ve(X)! =A(Vs(X)), 


其 中 入 (Vs(X)) 表示 您 (X) 的 最 大 特征 值 ， 若 存在 Xs et 满足 


和 (ea(Xs)) = pana! Ve(X)! = RVs(X)), (5.4.10) 
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则 称 Xe 为 巨 最 优 、 显然 ， 已 最 优 设计 就 是 使 证 的 协 方差 阵 的 最 大 特征 值 最 小 
化 的 设计 ， 故 E 最 优 准 则 也 称 为 协 方差 阵 的 最 大 特征 值 最 小 化 准则 . 进一步 ， 若 
rk(X) =p, 有 H= 万, 则 (5.4.10) 可 表 为 


Mp(XEXE) = Hin Mp(X'X). (5.4.11) 


其 中 和 p(X'X) 表示 X'X 的 最 小 特征 值 . 
3. DD 最 优 准则 
车 存在 Xp et, 使 得 


lVe(Xp)| = gi lVe(X)| (5.4.12) 


成 立 ， 则 称 Xp 为 D 最 优 、 因 为 多 的 广义 方差 为 cz|Vs(X)|, 所 以 D 最 优 准则 也 
称 为 广义 方差 最 小 准则 .车 rk(X) = p, = I, 则 (5.4.12) 可 表 为 


IXbXp| = ex IX'X|. (5.4.13) 


D 最 优 准则 还 称 为 置信 椭 球 体积 最 小 准则 .事实 上 , 依 $5.2 知 , 若 e ~ N(0, c27)， 

2 已 知 ， 则 
(SE)Ve!(X)(@ — ®) < o2x2(o) 

为 更 的 置信 水 平 为 1 一 a 的 置信 椭 球 ， 可 以 证 明 此 椭 球 的 体积 为 c(c2X2,{a))m 
VIVAXD, 其 中 。 为 仅 与 m 有 关 的 常数 ， 可 见 ， 在 一 定 的 置信 水 平 下 ， 别 的 置信 
椭 球 体积 与 IVs(X)| 成 正比 .自然 我 们 希望 在 置信 水 平 不 变 的 前 提 下 ， 园 信 椭 球 的 
体积 越 小 越 好 ， 这 从 另 一 个 侧面 说 明了 DD 最 优 准则 的 合理 性 . 

以 上 介绍 的 三 种 最 优 准 则 是 最 常用 的 准则 , 除 此 之 外 , 还 有 其 它 的 一 些 准则 ， 
在 此 不 一 一 介绍 . 

5.4.2 含 多 余 参 数 的 设计 


在 某 些 试验 中 , 我 们 常常 仅 对 部 分 参数 的 估计 感 兴趣 ， 于 是 便 产生 了 含 多 余 参 
数 的 设计 问题 . 设 X, 6 为 


X=(X:X), B=(8 :pb), (5.4.14) 


其 中 Xi 为 n xm 矩阵 ，Xz 为 nx (p 一 mm) 矩阵 ，Bi 为 m 维 向 量 ， Bs 为 p-m 
维 向 量 ， 不 失 一 般 性 ， 假 定 8 是 模型 的 多 余 参 数 ， 我 们 感 兴趣 的 只 是 


下 o = (5.4.15) 
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这 相当 于 在 (5.4.3) 式 中 取 五 为 Ho = (Im : 0), 故 含 多 余 参 数 的 设计 问题 本 质 上 是 
一 般 设计 问题 的 一 个 特例 . 利用 Ho 的 特殊 性 ， 我 们 可 以 获得 更 深刻 的 结果 . 
当 Bi 可 估 时 ， 依 定理 2.2.5 和 3.1.3, Bi 的 LS 估计 及 协 方差 阵 分 别 为 


B= (XI(T— Px,)X1) XI{(T — Px,)y, (5.4.16) 
Cov(B) = 0?(X!(T — Px,)X1)-! So2vVs, (X), (5.4.17) 


其 中 Vs,(X) = (XI(I ~ Px;)X1)-1. 根据 4 最 优 准则 和 D 最 优 准 则 的 定义 我们 
有 如 下 重要 定理 . 

定理 5.4.1 ”在 (5.4.14) 的 假定 下 , 设 t 为 。= Pi 的 可 行 设计 集合 . 若 
存在 X4 = (X4，; X4s) e *, 且 满 足 。 (i) XA,X4。 = 0, (ii) tr(XAXA)-1 = 
mmintr(XiX1)-!， 则 X4 为 均 方 误差 意义 下 的 4 最 优 设计 . 


证 明 当天 = (2 ; Xa) e 区 时 ， 依 推论 2.5.1 及 定理 假设 ， 有 


trVa,(X) = tr(XIT— Pxs) XI) > tr(GX)-1 


lv 


tr(X4, Xa)! = trVg, (XA). 
于 是 ， 当 定理 的 条 件 成 立时 ， 


trVa, (XA) = gn trVa, (X). 


依 4 最 优 的 定义 ， 定 理 得 证 . 

定理 5.4.2 ”在 (5.4.14) 的 假定 下 ， 仍 设 t 为 Bo = Bi 的 可 行 设计 集合 . 若 存 
在 Xp = (Xp, :Xps) e 4 且 满足 ， (i Xb,Xp, = 0, (5 |X5,Xp,| = max |X{Xil, 
则 Xp 为 D 最 优 设计 . 

证 明 对 任 一 X= (Xi1: X2) e 区 依 推论 2.5.1 和 2.5.2 以 及 定理 假设 ， 有 


[Vs,(X)| = (Xi(T — Px,)X1) 1] > (XEX1)-1| 


1 1 
rr Xb Xp) =, oi 
I(XIXW)| 一 [Xb,Xp,| I(Xp, Xp,) "| = Ya (Xp)| 


从 而 ， 我 们 有 
Je (Xp)| = gin Ve, (X). 


依 DD 最 优 的 定义 ， 定 理 得 证 . 
为 了 证 明 下 面 的 定理 ， 我 们 需要 如 下 引 理 . 


85.4 最 优 设计 人 大 


引 理 5.4.1 设 4xn= (ai)>0. 若 4 和 4-: 分 别 表示 成 分 块 矩 阵 ; 
| 训 | pe 411 412 
> 421 A22 


(1) [4| < |Anll422l < Te aas 

(2) |4"| > 人 3 特别， a7 > 直 ,j =D nm; 

(3) Mn(A) < ;7 < A(A), j= 1 n. 

(1) 和 (2) 不 难 从 定理 2.2.4 及 推论 2.5.1 推出 ， (3) 为 推论 2.4.1, 留 给 读者 作 
为 练习 . 

定理 5.4.3 在 (5.4.14) 的 假定 下 ， 设 革 为 和 o = Bi 的 可 行 设计 集合 , 车 存在 

=(X?: Xi) eX, Xt S (Xe), Xe), Xm)), 满足 ， (i) XY'X3 =0， (ii) 
XX6) = 0 (#7 j= XX (i =m) 在 zeD 上 达到 
最 大 值 ， 则 X" 同时 为 4 最 优 , EE 最 优 和 DD 最 优 . 

证 明 (1) 记 2 = (X0,Xo，…Xom), 依 引 理 5.4.1(2) 及 定理 的 假设 ， 有 


则 


trVe.(X) = tr(Xi(T 一 Px )X1)™ > tr(XLX1)™ 


2 i mw > > i Re = OC) = tr (X), 

即 

tr (X") = gin trVa (X). 
故 X* 为 4 最 优 . 

(2) 依 引 理 5.4.1(1) 及 定理 的 假设 ， 有 
[Va,(X)| = X(T — Pes)X1) -1 > (XIX1) = re 
1 1 LS 4 
> TO > me ee ~ er = (x) 

即 

[Va 7°)| = gin IVo, (X), 
故 X* 为 万 最 优 . 


{3) 依 引 理 5.4.1(3) 及 定理 的 假设 ， 有 


Aa(YP(X)) = NX 一 Pxa)XD) > An(XTXD)1 
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本 2 Sy 1 1 
IE) min, XX) min, (Xe Xe) 


2 dh re 一 + 
= Wr) = A(XY XT) A(Ve, (X")), 
即 


A(Ve.(X") = gin A(Vs,(X)), 


依 妃 最 优 的 定义 ， (3) 得 证 ， 定 理 证 毕 . 

推论 5.4.1 车 XX() =ci(i = 1…,m) 为 常数 ,只 要 取 X* = (XI: XX3) e 4 
满足 ， (i) XX3 = 0 的 XDXD) = 0 G 关 放 二 7 =，…,m), 则 定理 5.4.3 的 结 
论 仍 成 立 . 

例 5.4.1( 协 方差 分 析 模型 ) ”我 们 考虑 如 下 含 一 个 协 变量 的 协 方差 分 析 模型 
(如 例 1.3.1) 

8 三 lnpo 十 Xp 十 Ta 二 e 

其 中 X 是 给 定 的 0 或 1 组 成 的 矩阵 ，?Y 是 要 选择 的 n x 1 向 量 ， 使 得 对 估计 协 变 
量 系数 a 具有 某 种 优良 性 . 

由 定理 5.4.3, 问题 化 为 在 约束 条 件 


17=0, X'y=0 (5.4.18) 
下 ,在 7 的 所 有 可 能 取 值 中 ， 求 
maxy’y (5.4.19) 
最 大 值 ， 满 足 (5.4.18) 和 (5.4.19) 的 y 对 估计 a 来 说 ， 同 时 为 4 最 优 ， 已 最 优 和 
D 最 优 . 
习题 五 


5.1 分 别 检验 两 条 回归 直线 平行 、 等 截 距 及 相交 于 某 一 点 ， 即 设 
ai 一 oa 二 zi+eti es~N(0, oo), i=1,.,m, 


Yai =a2 + Para +e2, ex ~ N(0, oa)， 了 =1m 
其 中 所 有 eli,e2; 相互 独立 .分 别 检验 下 面 三 个 原 假设 ， 
(1D 局， = 所 , 两 条 回归 直线 平行 ; 
(2) H2: on = az, 两 条 回归 直线 等 截 距 ; 
(3) Ha: 对 某 个 zo, aa + Biro = aa + 有 rzo, 两 条 回归 直线 相交 于 点 (zo，yo), 其 中 yo = 
oa 十 Bizo. 
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5.2 ”对 线性 模型 y = XB + ee ~ (0, o?1), HB 为 可 估 函 数 ， 五 为 行 满 秩 ，Prr 入 满 


足 
{ X'XB+ H'A= X'y, 


HB=0. 
证 明 ， SSwe - SS。 = o2X(Cov(N))-13. 
5.3 对 和 mn 个 线性 模型 


Yi = Xi +e ei ~ Nni(0 o27), 


这 里 X; 为 mw x p 的 列 满 秩 阵 ， 证 明 线性 假设 Ho : 8 = … = Bm 的 似 然 比 统计 量 为 
(CE CD 
zm-D( Zou 一 YYOcxo) 


其 中 n= 并 ;mi, 且 当 Ho 为 真 时 FF 和 ~ Fn-Dp n_mp: 

5.4 由 空中 观测 地 面 上 的 一 个 四 边 形 的 四 个 角 091, 92, 6 和 04, 观测 值 分 别 为 Yi,Y2, Ys 
和 Y4. 如 果 观 测 误差 是 独立 正 态 的 ， 均 值 为 0, 方差 为 o?, 假定 四 边 形 为 平行 四 边 形 ， 91 = bs 
和 9 = 04, 导出 对 这 个 假设 的 检验 统计 量 . 

5.5 对 线性 模型 y = XiB1 + X22 +e，e ~ Nn(0，c27). 证 明 , 检验 2 = 0 的 似 然 比 统 
计量 为 


Fen-P 启 Xy 一 了 Xi _n-p y(XX+— XxXt)y 
9 yy- 放 Xy 9 2 一 XX+) 
其 中 XX2 和 Xi 分 别 为 n xg 和 nx (p 一 q) 矩阵 ,X= (Xi:X2), rk(X)=p, BP' = (88) 启 
为 XXB = X 的 解 ， 地 为 X{Xiy = Xfy 的 解 . 且 当 Pa = 0 为 真 时 ， 瑟 人 Fa, np 
5.6 ” 设 有 两 个 线性 模型 


Wi = Xibi + es, ei ~ Nn (0, o?1), i=1,2, 


el 和 ez 相互 独立 ， 对 XX; 和 Bi 分 块 如 下 ， 


os 
X= (Xi: Kat), B= ( ) 
可 


这 里 Xls，Xzi 分 别 为 mw x pi, ni xpa 矩阵 ，as 和 6 分 别 为 pl xl 和 pa x1 向量 ， Pi 十 pa = p. 
证 明 检验 假设 Ho: 561 = 52 的 似 然 比 统计 量 为 
P= 于 + 名 名， 
这 里 
R= DyXXty — DyXuXty — (DT, YQiX2) (TD, XH Qi Xa:) (TD, Xs Qiyi), 
B= Vy — DMXXty, Q: =1— XXt. 
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5.7 设 刀 = 二 Bo 二 Biri 十 ej，i 二 1,…,n，ei ~ N(0, o?) 且 相 互 独立 ， 对 一 切线 性 组 合 
aoBo + aiBi(aoai 关 0), 试 作出 置信 系数 为 1 一 a 的 同时 置信 区 间 . 
5.8 设 两 组 数据 满足 


Wi=AP+B(zs— a)+en, es~N(0, oa)， =] 


ya; = Ba + B(z2; — 22) + ez, ezj ~ N(0 oo)， j= bn 


这 里 31 = 也 ;zii/ni，z2 = 并 ) zzi/ma, 即 这 两 组 数据 服从 平行 直线 回归 模型 
y=P+B(z— 51), 


y= pa + P(r — 32). 
在 eli,e2; 相互 独立 的 条 件 下 ， 
(了 ) 求 及 ,如 , 8 的 BLU 估计 ; 
(2) 求 此 两 条 回归 直线 平行 于 y 轴 方 向 上 的 距离 d 的 BLU 估计 . 即 设 y。 = Bi++B(zo 一 1)， 
Ys =Pbat+B(zo ~ #2), d=Yy, 一 yei 
(3) 求 d 的 置信 系数 为 1 - a 的 置信 区 间 . 


第 六 章 “线性 回归 模型 


在 第 四 、 第 五 两 章 , 我 们 系统 地 讨论 了 一 般 线 性 模型 的 估计 和 检验 理论 ， 从 本 
章 起 接 下 来 的 三 章 将 把 这 些 一 般 理论 应 用 于 一 些 特殊 的 模型 ， 如 在 第 一 章 引 进 的 
线性 回归 模型 ， 方 差分 析 模 型 和 协 方差 分 析 模 型 ， 本 章 先 讨论 线性 回归 模型 . 


86.1 最 小 二 乘 估计 


从 第 一 章 我 们 已 经 知道 , 含有 p 一 1 个 自 变量 的 理论 线性 回归 模型 的 一 般 形 式 
为 
Y=PBo+PX1+...+ Bp-1Xp-1+e. 
如 果 对 因 变 量 Y 和 自 变量 XI,…, Xp-1 进行 了 n 次 观察 , 得 到 的 n 组 数据 (yi za， 
Tip-1), 1 二 1,…,n, 它们 满足 


Y= Bot+PBiza t+ + Pp-iTip_1 + ei, i=1,.,n. 
记 
Yi 1 zu Zl,p— Bo el 
2 1 zal TD2,p-1 AB e2 
y= ， X= ， B= 1 ee= 
Yn 1 znl .Tnp-l Bp-1 en 


且 假 设 水 (X) = p, ei(i = 1,…,n) 互 不 相关 ， 均 值 皆 为 零 ， 且 有 公共 方差 2, 则 得 
到 线性 回归 模型 
y= XB+e, Ele)=0, Cov(e)=o?1. (6.1.1) 
称 bo 为 常数 项 ， Bf = (所 ，.… ,Bp-1) 为 回归 系数 . 
线性 回归 模型 (6.1.1) 作为 特殊 的 线性 模型 ， 因 为 其 设计 阵 X 满足 zk(X) = p， 
所 以 B 为 可 估 函 数 ， 其 LS 估计 为 


B=(X'X)-1X'y. (6.1.2) 
户 具 有 下 述 性 质 . 
定理 6.1.1 (1) 无 偏 性 ， E(B) = 6. 


(2) 方差 最 小 性 (Gauss-Markov 定理 ): 对 任意 p x 1 向 量 ， oc 为 e18 的 惟一 
BLU 估计 ， 这 里 序 = (Po, 所,… ,Bo_1). 
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(3) 人 2 = ly 一 XBlP/(n 一 p) 为 o2 的 无 偏 估计 . 

车 进一步 假设 e。 ~ Na(0, o?7), 则 还 有 

(4) ~ Np(B,o2(X'X)), 特 别 记 ~ N(Bi,0?cii), 这 些 ci 表示 (X'X)-! 的 第 
(i+1) 个 对 角 元 ，i=0,1,…,p 一 1. 

(5) eB 是 cB 的 惟一 MVU 估计 . 

(6) (n 一 p)6? ~ o?X2_p, 且 与 和 相互 独立 . 
这 些 结果 易 从 84.1 的 有 关 定 理 推出 . 

在 回归 分 析 中 , 我 们 的 主要 兴趣 在 回归 系数 By, 所 以 常常 需要 把 它 和 常数 项 分 
开 表 示 ， 记 

X=(1:X), 厅 =(6op)， 
其 中 1 表示 由 n 个 1 组 成 的 n 维 列 向 量 ， 则 模型 (6.1.1) 可 改写 为 
y= Bol+XB1+e, Ele)=0, Cov(e) = co27. (6.1.3) 


在 实际 应 用 中 ， 有 时 要 对 数据 中 心 化 . 所 谓 中 心 化 就 是 把 自 变量 的 度量 起 点 移 至 它 
在 ”次 试验 中 所 取 值 的 中 心 点 处 : 记 


它 是 自 变量 X; 在 ”次 试验 中 取 值 的 算术 平均 ， 则 y; 可 改写 为 
其 二 加 十 永 (zi 一 击 ) 十:… 十 pp-li(zi p11— Ep-i) te i=1,...,n, (6.1.4) 
这 里 
Y=P+Azt.+hp-izp 1=P+aP, 2=(F,, Fp). (6.1.5) 


用 矩阵 记号 来 写 (6.1.4), 即 为 


= ?301+ 和 Or+e， Ee)=0, Cov(e)=o27, (6.1.6) 
其 中 又。 = (I 一 11') 义 , 称 为 中 心 化 设计 阵 ， 它 具有 性 质 
和 1=0. (6.1.7) 


为 方便 计 ， 我 们 称 (6.1.4) 和 (6.1.6) 为 中 心 化 线性 回归 模型. 
利用 (6.1.7) 容易 验证 ， 对 于 中 心 化 的 线性 回归 模型 (6.1.6), 正则 方程 变 为 


JJ) 
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no = ny, 
KKB = Rey, 


其 中 多 = 二 1 中 由 此 立 得 %o 和 61 的 LS 估计 为 


o=5, Br= (XR) Ry, (6.1.8) 


3 
owl | , (6.1.9) 
Br 0 (XX)! 


这 个 事实 说 明 ， 在 中 心 化 线性 回归 模型 中 ， 常 数 项 Yo 总 是 用 因 变量 观测 值 的 算术 
平均 值 来 估计 ， 而 回归 系数 pr 的 估计 可 以 从 线性 回归 模型 y = XB1 +e 按 通常 的 
LS 公式 即 (6.1.8) 得 到 ， 并 且 这 两 个 估计 总 是 不 相关 的 . 

剩 下 的 问题 是 要 证 明 , 由 (6.1.8) 给 出 的 回归 系数 的 LS 估计 与 (6.1.2) 相 一 致 . 
事实 上 ,将 六 = (1 :; 义 ) 代入 (6.1.2), 并 利用 分 块 矩 阵 求 逆 公 式 (定理 2.2.4), 有 


-1 
a-{ * 工交 ly )_{ E+a(KiX) -1s 一 开元 充 )- 1 
X1 KR) xy _(KX) -二 x xy 


(Xs 
要 可 一 到 (大 + 1Xiy 
(RiXe) -ly 
这 里 由 (6.1.5) 所 定义 .上 式 的 后 p 一 1 个 分 量 即 为 (6.1.8) 的 语 . 
这 就 证 明了 我 们 的 结论 。 从 第 一 分 量 知 
B=5- #6 = 和 -ap 
等 价 地 
和 =Bo+zb. (6.1.10) 


它 与 (6.1.5) 相对 应 ， (6.1.10) 给 出 了 中 心 化 模型 和 非 中 心 化 模型 常数 项 估计 之 间 
的 关系 . 
除了 中 心 化 ， 对 自 变量 经 常 做 的 另 一 种 处 理 称 为 标准 化 ， 记 


可 = (8) 了 = 一 
i=1 


三 一 (6.1.11) 
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我 们 刚才 讨论 过 ， 将 zi 减 去 5 称 为 中 心 化 ， 现 在 再 除 以 si, 这 称 为 标准 化 ， 令 
Z = (zi;), 则 2 就 是 将 原来 的 设计 阵 也 经 过 中 心 化 和 标准 化 后 得 到 的 新 设计 阵 ， 
这 个 矩阵 具有 如 下 性 质 : 

曾 " 政 = 

(2) R= 2'2 = (ri), 
= The 一 5(zu 一 本) - ey Sd (6.1.12) 
性 质 (1) 是 中 心 化 的 作用 ， 它 使 设计 阵 的 每 列 元 素 之 和 都 为 零 . 性 质 (2) 是 中 心 化 
后 再 施 以 标准 化 后 的 结果 . 如果 把 回归 自 变量 都 看 作 随机 变量 ， X 的 第 了 列 为 第 
了 个 自 变量 的 ”个 随机 样本 . 那么 ，R = 2'2 的 元 素 ri; 正 是 回归 自 变量 X; 与 Xi 
的 样本 相关 系数 ， 因 此 ，R 是 回归 自 变量 的 相关 阵 ， 于 是 ri = 1, 对 一 切 i 成立. 
标准 化 的 好 处 有 二 ， 其 一 是 用 R 可 以 分 析 回 归 自 变量 之 间 的 相关 关系 ， 其 二 是 在 
一 些 问题 中 , 诸 回归 自 变量 所 用 的 单位 可 能 不 相同 ， 取 值 范围 大 小 也 不 同 ， 经 过 标 
准 化 消去 了 单位 和 取 值 范围 的 差异 ， 这 便于 对 回归 系数 的 估计 值 的 统计 分 析 . 

需要 注意 的 是 ， 如 果 把 模型 (6.1.1) 既 经 过 中 心 化 ， 又 经 过 标准 化 ， 则 y; 变形 
为 


Wo0t (mt)B +. (2 ] +e i=1,..,n, (6.1.13) 
到 


7 林 


这 里 ao = ?0， 忆 = siBii=1,…,p 一 4. 记 Jp9 = (6 ,p_i), 用 和 矩阵 形式 模 
型 (6.1.13) 就 是 
y=a0l1+ 2 +e, (6.1.14) 
可 以 验证 ， ao 和 B 的 LS 估计 分 别 为 
Go= B=sB, i=l.,p-l, 
这 里 遍 为 有 5 的 第 i 个 分 量 .它们 对 应 的 经 验 回归 方程 分 别 为 : 
非 中 心 化 ， 立 = 扇 + 房 各 十 … 十 房 -1 六 ays 
中 心 化 立 = 知 二房 (0 一 二 ) 十 十 房 -0 一直) 
中 心 化 标准 化 ， 立 = Go 二 局 二 十 剧 1Cc -2 


$6.2 回归 方程 和 系数 的 检验 


当 我 们 根据 前 面 介 绍 的 估计 方法 得 到 回归 系数 的 估计 后 , 就 可 以 建立 起 经 验 回 
归 方 程 . 但 是 ， 所 建立 的 经 验 回归 方程 是 否 真 正 地 刻画 了 因 变 量 和 自 变 量 
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之 间 的 实际 依赖 关系 呢 ? 一 方面 , 我 们 需要 把 经 验方 程 拿 到 实践 中 去 考察 , 这 是 最 
重要 的 一 方面 ; 另 一 方面 ,我 们 也 可 以 做 统计 假设 检验 ， 这 叫做 回归 方程 的 显著 性 
检验 . 另外 , 我 们 往往 还 希望 研究 因 变量 是 否 真 正 依赖 于 某 个 或 几 个 特定 的 回归 自 
变量 ， 这 就 导致 了 相应 的 回归 系数 的 显著 性 检验 ， 本 节 我 们 将 讨论 这 些 问题 . 


6.2.1 ”回归 方程 的 显著 性 检验 


对 于 正 态 线性 回归 模型 
入 = 四 +zilp 十 ,+zip-lpp-1+e ei~N(0,0), i=1,..,n, (6.2.1) 
所 谓 回归 方程 的 显著 性 检验 ， 就 是 检验 假设 ， 所 有 的 回归 系数 都 等 于 零 ， 即 检验 
Ho P=.……=pp-1=0. (6.2.2) 


如 果 这 个 假设 被 拒绝 ， 这 就 意味 着 我 们 接受 断言 ， 至 少 有 一 个 Bi 关 0, 当然 也 可 能 
所 有 B; 都 不 等 于 零 . 换 句 话说 ， 我 们 认为 Y 线性 依赖 于 至 少 某 一 个 自 变量 X;, 也 
可 能 线性 依赖 于 所 有 的 自 变 量 Xi，…, XX,_1. 如 果 这 个 假设 被 接受 ， 这 意味 着 我 们 
接受 断言 ， 所 有 4 = 0, 即 我 们 可 以 认为 ， 相 对 于 误差 而 言 ， 所 有 自 变量 对 因 变量 
Y 的 影响 是 不 重要 的 . 
显然 , 假设 (6.2.2) 是 上 章 定理 5.1.1 中 一 般 线性 假设 中 吾 = (0, -1) 的 特殊 情 
形 ,并 且 瑟 = (0, 思 -1) 满足 定理 5.1.1 的 条 件 ， 故 定理 5.1.1 给 出 的 王 检 验 统计 量 
可 以 直接 应 用 在 这 里 ,下面 我 们 就 现在 的 特殊 情形 ,导出 检验 统计 量 的 简单 形式 ， 
将 假设 (6.2.2) 代入 模型 (6.2.1), 得 到 约 简 模型 
y=Bte, i=l,n. (6.2.3) 
它 的 正则 方程 为 nfo = ng, 于 是 po 在 模型 (6.2.3) 下 的 LS 估计 为 85 = 5 根据 85.1 
的 结果 回归 平方 和 等 于 未 知 参数 的 LS 解 与 正则 方程 右 端 向 量 的 内 积 ， 于 是 ， Po 
对 应 的 回归 平方 和 为 
RSS,(6) = RSS(B0) = ny. 
而 对 原 模型 (无 约束 ), 从 中 心 化 回归 模型 (6.1.5) 知 ， 回 归 平方 和 为 
RSS(B) = jony + Bi Xiy = ny? + BX!y, 
于 是 
RSS(6) - RSSp,(8) = Pi Xiy. (6.2.4) 


再 根据 $5.1 的 结果 ， 残 差 平方 和 等 于 总 平方 和 减 去 回归 平方 和 ， 于 是 原 模型 残 差 
平方 和 为 
SSe。 = yy 一 RSS(B) = yy — ny — PX’y. (6.2.5) 
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根据 (5.1.11), 注意 到 对 现在 的 情形 m = p 一 1, 于 是 我 们 可 以 得 到 检验 假设 (6.2.2) 
的 检验 统计 量 为 hy 
cy/(p— 
F= a (6.2.6) 

当 原 假设 (6.2.2) 成 立时 ， ~ Fp_1, n-p. 对 给 定 的 水 平 a, 当 F > Fp-1, np(a) 
时 ， 我 们 拒绝 原 假设 Ho, 否则 就 接受 Ho 

需 强 调 的 是 ， 如 果 经 过 检验 ,结论 是 接受 原 假设 Ho =…= PB,-1 =0, 这 
意思 是 说 ， 和 模型 的 各 种 误差 比较 起 来 ， 诸 自 变量 对 Y 的 影响 是 不 重要 的 . 这 里 
可 能 有 两 种 情况 .其 一 是 ， 模 型 的 各 种 误差 太 大 ， 因 而 即使 回归 自 变量 对 Y 有 一 
定 的 影响 ,但 与 较 大 的 模型 误差 相 比 ,也 不 算 大 .对 这 种 情况 ， 我 们 就 要 想 办 法 缩 
小 误差 这 包括 从 分 析 问 题 的 专业 背景 入手 ,检查 是 否 漏 掉 了 重要 的 自 变量 , 或 
对 某 些 自 变 量 有 非 线性 相依 关系 等 ， 其 二 是 ， 回 归 自 变量 对 Y 的 影响 确实 很 小 ， 
对 这 种 情况 ， 我 们 就 要 放弃 建立 Y 对 诸 自 变量 的 线性 回归 . 


6.2.2 ”回归 系数 的 显著 性 检验 


回归 方程 的 显著 性 检验 是 对 线性 回归 方程 的 一 个 整体 性 检验 ， 如 果 我 们 检验 

的 结果 是 拒绝 原 假设 ， 这 意味 着 因 变量 Y 线性 地 依赖 于 自 变量 Xi， ,Xp_1 这 个 

回归 自 变量 的 整体 ， 但 是 ， 这 并 不 排除 Y 并 不 依赖 于 其 中 某 些 自 变量 ， 即 某 些 /6; 

可 能 等 于 零 . 于 是 在 回归 方程 显著 性 检验 被 拒绝 之 后 , 我 们 还 需要 对 每 个 自 变 量 逐 
一 做 显著 性 检验 ， 即 对 固定 的 i(1 < i < p 一 1), 做 如 下 检验 ， 

Hi: Bi =0. (6.2.7) 


此 假设 也 是 一 般 线 性 假设 (5.1.1) 的 一 种 特殊 情况 ,利用 定理 5.1.1 可 以 获得 所 需 的 
检验 ， 对 于 检验 问题 (6.2.7), 下 面 我 们 给 出 一 种 直接 导出 检验 统计 量 的 方法 
对 于 模型 (6.2.1), 6 的 LS 估计 为 语 = (X'X)-1X'y. 根据 定理 6.1.1 知 
B~ No(B, o2(X'X)-!) 
记 Cpxp = (cj) = (X'X)-1, 则 有 


Bi~ N(Bi, o?cis), (6.2.8) 
于 是 当 HH 成 立时 ， 人 
应 
OVCii 
依 定理 6.1.1, (n 一 p)3? ~o?X_p, 且 与 所 相互 独立 , 这 里 和 2 = ly 一 XB2/(n 一 p)， 
根据 分 布 的 定义 ， 有 


~ N(0, 1). 


(6.2.9) 
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这 里 志 -p 表示 自由 度 为 n 一 p 的 上 分布， 对 给 定 的 水 平 w, 当 | > 如 -p(a/2) 时 ， 
我 们 拒绝 原 假设 二 ;, 否则 就 接受 FH 

从 (6.2.8) 我 们 可 以 看 出 ， 回 归 系 数 6 的 LS 估计 i 的 方差 Var( 房 ) = ca2cit. 
文献 中 常 把 (Var( 房 ))1/2 = oVes 称 为 房 的 标准 误差 . 它 的 一 个 估计 为 5VE5, 因 
此 (6.2.9) 所 给 出 的 上 检验 统计 量 就 是 回归 系数 LS 估计 房 与 其 标准 误差 的 估计 的 
商 . 

如 果 我 们 经 过 检验 ,接受 原 假设 6; = 0 时 , 我 们 就 认为 回归 自 变量 X; 对 因 变 
量 Y 无 显著 的 影响 ， 因 而 可 以 将 其 从 回归 方程 中 剔除 ， 将 这 个 回归 自 变量 从 回归 
方程 中 剔除 后 ， 剩 余 变 量 的 回归 系数 的 估计 也 随 之 发 生变 化 ， 将 了 对 剩余 的 回归 
自 变量 重新 做 回归 ， 然 后 再 检验 其 余 回归 系数 是 否 为 零 ， 再 剔除 经 检验 认为 对 也 
无 显著 影响 的 变量 ， 这 样 的 过 程 一 直 继续 下 去 ， 直 到 对 所 有 的 自 变量 ， 经 检验 都 认 
为 对 了 有 显著 的 影响 为 止 ， 对 回归 系数 做 显著 性 检验 的 过 程 ， 事 实 上 也 是 对 回归 
自 变量 的 选择 过 程 ， 关 于 回归 自 变量 的 选择 ， 我 们 将 在 下 一 节 作 详 细 讨 论 ， 

例 6.2.1 煤 净 化 问题 ( 取 自 文献 [81]). 

表 6.2.1 给 出 了 煤 净化 过 程 的 一 组 数据 ， 表 中 变量 Y 为 净化 后 煤 溶液 中 所 含 
杂质 的 重量 ， 这 是 衡量 净化 效率 的 指标 ; X 表示 输入 净化 过 程 的 溶液 所 含 的 煤 与 
杂质 的 比 ， X2 是 溶液 的 pH 值 ， Xs 表示 溶液 流量 ， 试 验 者 的 目的 是 通过 一 组 试 
验 数据 ， 建 立 净 化 效率 Y 与 三 个 因素 Xi, X 和 Xs 的 经 验 关系 ， 进 而 据 此 通过 控 
制 某 些 自 变 量 来 提高 净化 效率 ( 表 6.2.1). 


表 6.2.1 _ 煤 净化 数据 
一 一- 


编号 1 za 3 y 
1 1.50 6.00 1315 243 
2 1.50 6.00 1315 261 
3 1.50 9.00 1890 244 
4 1.50 9.00 1890 285 
5 2.00 7.50 1575 202 
6 2.00 7.50 1575 180 
2.00 7.50 1575 183 
8 2.00 7.50 1575 207 
9 2.50 9.00 1315 216 
10 2.50 9.00 1315 160 
11 2.50 6.00 1890 104 
12 2.50 6.00 1890 110 

ed 
考虑 线性 回归 模型 


Y= Bot+PBX1+ BX2 + BaXs+e, 
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应 用 最 小 二 乘法 ， 得 到 回归 系数 的 估计 
(Bo, Bi, Bo, Ba)’ = (397.087, —110.750, 15.583, —0.058)". 
先 考虑 回归 方程 显著 性 检验 ， 即 Ho: Bi = Ba = Bs = 0. 经 计算 得 到 
BXly = 31156.02, SS。 = 3486.89. 
于 是 ， (6.2.6) 的 下 统计 量 为 


_ BiXiy/3 10385.33 


四 三 = 23.82 . 


SS./8 435.85 


取 a = 0.05, 查 表 得 F3, a(0.05) = 4.07. 因 玉 = 23.82 > 下, a(0.05) = 4.07, 于 是 我 们 
拒绝 原 假设 Ho. 认为 了 对 Xi1, Xz 和 Xs 有 一 定 的 依赖 关系 
进一步 考虑 回归 系数 的 显著 性 检验 ， 经 计算 得 


cu = 0.49998, c22 = 0.05556, c33 = 0.0000011. 


再 根据 上 面 已 得 到 的 8 的 LS 估计 值 及 6? = 435.85, 容易 算得 三 个 回归 系数 对 应 的 
万 值 分 别 为 
t=-750, tao=317, t=-2.27. 


对 给 定 的 水 平 a = 0.05, 查 表 得 te(0.025) = 2.3060. 对 i= 1,2, 有 |éi| > ts(0.025). 
因此 ， 在 水 平 a = 0.05, 对 每 一 个 回归 系数 的 单独 检验 ， 接 受 8; 关 0,i = 1,2. 也 就 
是 说 ， 我 们 认为 这 两 个 自 变量 对 净化 效率 都 有 重要 影响 . 


6.2.3” 复 相关 系数 


度量 随机 变量 Y 与 随机 向 基 X = (X1,… ,Xp-1) 相关 程度 的 概念 是 复 相关 系 
数 (multiple correlation coefficient), 定义 为 


P= (0% Dad0s) /oy; (6.2.10) 


tl jel | 
X Day Tan 


在 与 衣 ，…,Xp-1 的 联合 分 布 为 正 态 分 布 的 条 件 下 ， 可 以 证 明 (参见 文献 [40], 
[sol, p.164) 


这 里 


如 = -六 其 中 9= Dw 
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Ss = LR Gay = Ry ~ D1) 
分 别 为 o3, zs 和 ozy 的 ML 估计 .在 (6.2.10) 中 分 别 用 55, 2c= 和 5cy 代替 oy， 
了 ee 和 ozy, 并 注意 到 交 1 = 0, 便 得 到 p 的 估计 
2 立 / 1/2 

RAP= (=) ; (6.2.11) 
称 为 样本 复 相关 系数 ， 而 (6.2.10) 称 为 总 体 复 相关 系数 . 一般 根据 上 下 文 可 以 知道 
所 讨论 的 复 相关 系数 是 总 体 的 还 是 样本 的 ， 因此， 我 们 总 是 路 去 前 面 的 “总 体 ”和 

“样本 ”两 字 ， 把 (6.2.10) 和 (6.2.11) 统称 为 复 相关 系数 . 
(6.2.11) 的 分 母 忆 ,(yi ~ 妨 ? 为 因 变 量 Y 在 n 次 试验 中 取 值 的 总 变 差 平方 和 ， 
记 为 
TSS = 》 (人 一 习 ?. 


wi 
RSS(B1) = BX!y, 
它 是 回归 系数 Bi 的 回归 平方 和 . (6.2.11) 等 价 于 
RSS(p 
We Te, 
即 复 相关 系数 的 平方 等 于 回归 平方 和 与 总 平方 和 之 比 . 若 尽 = 1, 则 RSS(B1) = TSS， 
这 说 明 因 变 量 的 总 变 差 完全 由 回归 来 解释 ， 所 以 ，Y 与 XX,… ,Xb-1 之 间 有 严格 
的 线性 关系 . 相反 , 若 已 = 0, 则 RSS(B7) = 0, 这 说 明 只 考虑 了 与 XX,…, Xp-1 之 
间 的 线性 关系 ， 根 本 无 法 解释 Y 的 变 差 ， 所以， 工 与 X1,…, Xp-1 之 间 无 任何 线 
性 关系 .在 一 般 情 况 下 ，0 < RR<1,Y 与 XX,…,Xp_1 之 间 有 一 定 的 线性 关系 . 
一 般 说 来 ， 忆 愈 大 ， 表明 YY 与 X1,…,Xb-1 之 间 的 线性 关系 程度 愈 强 . 因此 在 应 
用 上 ，RR 也 是 度量 回归 方程 优 劣 的 一 个 重要 指标 . 
但 是 ， 这 里 需要 注意 的 是 ， RR 作为 单个 数字 指标 ， 用 其 度量 变量 之 间 的 相关 
性 总 有 不 足 之 处 ， Anscombe 曾经 对 两 个 变量 Y 与 X 构造 了 四 组 数据 ， 它 们 有 相 
同 的 R, 但 Y 与 X 的 关系 却 有 很 大 的 差异 (参阅 文献 [27], p.92). 


(6.2.12) 


86.3 回归 自 变 量 的 选择 


在 应 用 回归 分 析 去 处 理 实际 问题 时 ， 回 归 自 变量 的 选择 是 首先 要 解决 的 重要 
问题 通常 ， 在 做 回归 分 析 时 ， 人 们 根据 问题 本 身 的 专业 理论 及 有 关 经 验 ， 常 常 把 
各 种 与 因 变量 有 关 或 可 能 有 关 的 自 变量 引进 回归 模型 ， 其 结果 是 把 一 些 对 因 变量 
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影响 很 小 的 ， 有些 甚至 没有 影响 的 自 变量 也 先入 了 回归 模型 中 ， 这样 一 来 ， 不 但 计 
算 量 大 ， 而 且 估计 和 预测 的 精度 也 会 下 降 .此 外 ， 在 一 些 情况 下 ， 菜 些 自 变 量 的 观 
测 数据 的 获得 代价 如 贵 ， 如 果 这 些 自 变量 本 身 对 因 变量 的 影响 很 小 或 根本 就 没有 
影响 ， 但 我 们 不 加 选择 都 引进 回归 模型 ,势必 造成 观测 数据 收集 和 模型 应 用 的 费用 
不 必要 的 加 大 因此, 在 应 用 回归 分 析 时 ， 对 进入 模型 的 自 变量 作 精心 的 选择 是 十 
分 必要 的 . 本 节 的 目的 就 是 对 自 变 量 的 选择 从 理论 上 作 一 简要 地 分 析 , 介绍 一 些 变 
量 的 选择 准则 和 一 些 求 “ 最 优 ” 自 变量 子 集 的 计算 方法 
6.3.1 变量 选择 对 估计 和 预测 的 影响 


假定 根据 经 验 和 专业 理论 ， 初 步 确定 一 切 可 能 对 因 变 量 Y 有 影响 的 自 变量 共 
有 p 一 1 个 ， 记 为 X(1),…,X(p-y), 它们 与 因 变 量 一 起 适合 线性 回归 模型 ， 在 获得 
了 nn 组 观测 数据 后 ， 我 们 有 模型 


y=X8+e, E(e)=0, Cov(e)=o?1, (6.3.1) 


这 里 y 为 nx 1 观测 向 量 ，X 为 xp 的 列 满 秩 设计 阵 ， 我 们 约定 X 的 第 一 列 元 
素 皆 为 1 

假设 我 们 根据 某 些 自 变量 选择 准则 , 剔除 了 模型 (6.3.1) 中 一 些 对 因 变量 影响 较 
小 的 自 变量 ， 不 妨 假设 别 除 了 后 P- 4 个 自 变 量 Xp，……Xtp-b 记 X= (Xa ;Xt)， 
B = (Bs : I), 则 我 们 得 到 一 个 新 模型 


y= XoBy +e, E(e) = 0, Cov(e) = o?1, (6.3.2) 


这 里 我 们 约定 Xe 中 包含 了 常数 项 ， Xe 和 X, 分 别 有 g,p 一 g 列 ，B 和 Bi 分别 
含有 9%P 一 4 个 回归 参数 . 

为 方便 计 ， 我 们 称 模型 (6.3.1) 为 全 模型 ， 而 称 模型 (6.3.2) 为 选 模型 ， 依 8 6.1 
的 讨论 知 ， 在 全 模型 下 ， 回 归 系数 8 的 LS 估计 为 


B= (XX)-IX'y, (6.3.3) 
而 在 选 模型 下 ， 6 的 LS 估计 为 
BX (6.3.4) 
对 语 作 相应 的 分 块 : 房 = ( 房 : 房 ). 
定理 6.3.1 ”假设 全 模型 (6.3.1) 正确 ， 则 


(1) BE( 记 ) = Bs + 464 这 里 A= (XsXa)-1X Xe; 
(2) Cov(B) > Cov(B,). 
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证 明 (1) 依 (6.3.4), 得 


hb 
E(By) = (Xs Xo) XE(Yy) = (XsXa) Xa( Xa: | 7 ) 


Be 
=(I:4) by = a+ AB. 
Bb 
于 是 (1) 得 证 . 


(2) 根据 分 块 矩阵 的 道 矩 阵 公 式 (定理 2.2.4), 有 
一 1 
Co 人 44 -AD | 098 
XXX 一 D4 D 三 


这 里 DD= (Xi(T 一 Px,)X4)-1. 又 由 


Cov(B) = Cov A "|=02(X'X)-, 
be 
推 得 Cov(B&) = 2(( XI Xe)-1+ 4D4'). 但 Cov( 房 ) = o?(XiXo)-!, 所 以 
Cov(By) - Cov(Ba) = 24D4/. 


因为 (X'X)-! > 0, 所 以 D > 0. 于 是 Cov( 记 ) - Cov( 启 ) > 0. 从 而 (2) 得 证 . 
对 于 未 知 参数 9 的 有 偏 估计 5, 协 方差 阵 不 能 作为 衡量 估计 精度 之 用 ， 更 合理 
的 是 均 方 误差 矩阵 (mean square error matrix, 简 记 为 MSEM). 定义 为 


MSEM(6) = E(6 一 0)(5 一 9) 
用 类 似 定理 6.6.1 证 明 方法 ， 易 得 
MSEM(6) = Cov(6) + (E6 ~ 9)(E6 一 6) (6.3.6) 
定理 6.3.2 ”假设 全 模型 (6.3.1) 正确 ， 则 当 Cov(B) > Bup! 时 ， 
MSEM(B,) > MSEM(B,). 
证 明 ”对 估计 i 应 用 (6.3.6), 依 定理 6.3.1 立 得 


MSEM(B,) = o*(Xs Xa)-! + ABiBLA'. 
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注意 到 房 为 无 偏 估 计 ， 所 以 
MSEM(B) = oz2((XIXo)- + ADA'). 


又 因 Cov( 记 ) = o?D, 故 当 Cov(B) > pop! 时 ， MSEM( 刀 ) > MSEM(B). 定理 得 
证 . 

下 面 我 们 来 考虑 变量 选择 对 因 变 量 的 预测 的 影响 . 

假设 我 们 欲 预 测 点 ro' = (zoy，zo?) 对 应 的 因 变量 yo 的 值 .已 知 


Wo=z0B+e=zoB+zotB+e, Ele)=0,， Var(e) = c2?，  e 与 不 相关 . 


由 引 .3 知 ， 在 全 模型 下 ， 我 们 用 加 = zo' 作为 yo 的 预测 ， 预 测 偏差 为 z = 
zo'B- 如. 而 在 选 模型 下 , 用 加 = zo46 作为 yo 的 预测 , 预测 偏差 为 z = zo4B0 — yo: 
显然 ， 若 全 模型 (6.3.1) 正确 ， 则 预测 加 是 无 偏 的 ， 即 B(z) = 0. 下 面 讨论 预测 偏 
差 的 性 质 . 

定理 6.3.3 ”假设 全 模型 (6.3.1) 正确 ， 则 

(1) BE(24) = zosABt — zotBu, 这 里 4 = (XsXg) -I XL Xe; 

(2) Var(z) > Var(z4). 

证 明 (1) 因 E(yo) = zo4Ba + zotB, 依 定理 6.3.1, 立 得 (1). 

(2) 依 假设 ， 与 e 不 相关 ， 故 


Var(z) = 02(1+ zo'(X'X)-lzo)， Var(z) = c2(1 十 Zo4(X4Xo) -1zo0)， 
再 依 公式 (6.3.5), 得 


(XiXy)-1+ADA -AD 


Var(z) - Var(za) = o? (=( j= 4 tao] 


-DA’ D 
= 0?(zos ADA'zog — 2zo04Dzot + zo! Dzot) 
=0°(A'zog — x0)' D(A'zos — zot) > 0. (6.3.7) 


定理 证 毕 . 

这 个 定理 的 第 一 条 结论 说 明 ，zs 不 是 无 偏 预测 . 和 估计 的 情形 一 样 , 这 时 的 方 
差 不 能 度量 预测 的 优 劣 ， 需 要 考虑 预测 均 方 误差 (mean square error of prediction， 
简 记 为 MSEP). 加 的 预测 均 方 误差 定义 为 


MSEP(#o) = 已 (和 ~ yo)? = E(z2) = Var(za) + (BE(za))?. (6.3.8) 
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定理 6.3.4 ”假设 全 模型 (6.3.1) 正确 ， 则 当 Cov() > BeBt 时， 


MSEP(#) > MSEP( 加 ). 
证 明 ” 依 公式 (6.3.8), 得 
MSRP( 加 ) = Var(z). 
根据 假设 条 件 及 定理 6.3.1(1), 有 
(B(za))2 = (z0% AB, 一 zol = (zo04 — zot)BeBi( A'rog — zot) 
< (zo4A — zot)Cov(B.)(A'zog — zot). 


因为 Cov( 记 ) = c?D, 并 利用 (6.3.7), 得 


(BE(za))” < Var(z) - Var(zg), 


从 而 有 
MSEP( 加 ) = Var(z) > Var(zo) + (了 (za))2 = MSEP( 加 ). 


定理 证 毕 . 

综 上 ， 我 们 有 如 下 结论 : 

(1) 即使 全 模型 正确 ， 剔 除 一 部 分 自 变量 之 后 ， 可 使 得 剩余 的 那 部 分 自 变 量 的 
回归 系数 的 LS 估计 的 方差 减 小 ， 但 此 时 的 估计 一 般 为 有 偏 估计 ， 若 被 剔除 的 自 变 
量 对 因 变 量 影响 较 小 ， 则 可 使 得 剩余 的 那 部 分 自 变量 的 回归 系数 的 LS 估计 的 精度 
提高 . 

(2) 当 全 模型 正确 时 ， 用 选 模型 作 预 测 ， 预 测 一 般 是 有 偏 的 ， 但 预测 偏差 的 方 
差 减 小 . 若 被 剔除 的 自 变量 对 因 变量 影响 较 小 , 则 剔除 掉 这 些 变量 后 可 使 得 预测 的 
精度 提高 . 

因此 , 在 应 用 回归 分 析 去 处 理 实际 问题 时 , 无 论 是 从 回归 系数 的 估计 角度 看 ， 
还 是 从 预测 的 角度 看 , 对 那些 与 因 变量 关系 不 是 很 大 或 难于 掌握 (用 Cov(B) > BE 
来 刻画 ) 的 自 变量 从 模型 中 剔除 都 是 有 利 的 .有 了 上 面 的 这 些 一 般 性 讨论 ， 下 面 我 
们 介绍 自 变量 选择 的 具体 准则 . 


6.3.2 ” 自 变 量 选择 准则 


统计 学 家 从 数据 与 模型 的 拟 合 优 劣 ， 预 测 精度 等 不 同 角度 出 发 提出 了 多 种 回 
归 自 变量 的 选择 准则 , 它们 都 是 对 回归 自 变量 的 所 有 不 同 子 集 进行 比较 , 然后 从 中 
挑 出 一 个 “最 优 ”的 ， 且 绝 大 多 数 选 择 准则 是 基于 残 差 平方 和 的 . 
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1. 平均 残 差 平方 和 准则 (RMS。) 

残 差 平方 和 SS。 的 大 小 刻画 了 数据 与 模型 的 拟 合 程度 ， SS。 愈 小 ， 拟 合 得 愈 
好 . 但 “ SS。 愈 小 愈 好 ” 却 不 能 作为 回归 自 变 量 的 选择 准则 ， 因 为 它 将 导致 全 部 自 
变量 的 入 选 ， 事 实 上 ， 在 选 模型 (6.3.2) 下 ， 残 差 平方 和 为 


SSo = ly — Xafbll? = YT ~ Px,)y. 


如 果 在 选 模型 (6.3.2) 中 再 增加 一 个 变量 ， 设 对 应 的 设计 阵 为 Xoy1 = (Xa ;外 , 则 残 
差 平方 和 为 
SSegt1 = (I — Px )y. 
利用 分 块 抢 阵 求 逆 公式 (定理 2.2.4), 不 难 证 明 Px,,, > Px,, 故 SSegr1 < SS 
为 了 防止 选取 过 多 的 自 变量 ， 一 种 常见 的 作法 是 在 残 差 平方 和 SS。。 上 添加 
对 增加 变量 的 惩罚 因子 ， 平 均 残 差 平方 和 RMS。 就 是 其 中 一 例 ， 平 均 残 差 平方 和 
RMS。 定义 为 


RMS, = = (6.3.9) 
这 里 9 为 选 模型 (6.3.2) 设计 阵 X 的 列 数 ， 实 际 上 RMS。 就 是 选 模型 (6.3.2) 下 误 
卷 方 差 的 LS 估计 . 因子 (nq)-! 随 自 变 量 的 个 数 增加 而 变 大 ， 它 体现 了 对 变量 个 
数 的 增加 所 施加 的 惩罚 . 依 RMS。 准则 ， 按 “ RMS, 愈 小 全 好” 选择 自 变量 子 集 . 
2. C; 准则 
Cp 准则 是 基于 C.L.Mallowslsollel 提出 的 C 统计 量 ， 它 是 从 预测 的 观点 出 发 
提出 的 ， 对 于 选 模型 (6.3.2), C; 统计 量 定义 为 


SS5 
Cp= -页 — (n— 2g), (6.3.10) 


这 里 SSe。 为 选 模型 (6.3.2) 下 的 残 差 平方 和 ， 52 为 全 模型 (6.3.1) 下 o2 的 LS 估 
计 ， 9 为 选 模型 (6.3.2) 设计 阵 X 的 列 数 ， 依 Cy 准则 ， 按 “ Cy 愈 小 傅 好 ”选择 
自 变量 子 集 . 

获得 统计 量 (6.3.10) 的 想法 如 下 : 如 果 采 用 选 模型 (6.2.3), 那么 我 们 用 = X!6B 
去 预测 y= XB+e, 则 

d= E(y- E(y))'(y - E(y)) 
度量 了 这 种 预测 的 优 劣 ， 根 据 二 次 型 求 期 望 公式 (定理 3.2.1) 易 得 
d= go? + PD, 

这 里 DD 的 定义 同 (6.3.5) 式 , 即 D-! = Xi(I - Px,)Xi. 令 


d + 了 2 2 
Tv= 与 =o+A2rA， 
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则 Ta 是 采用 选 模型 (6.3.2) 时 ， 在 n 个 试验 点 预测 优 劣 的 一 个 总 度量 ， 它 反映 了 
选 模型 (6.3.2) 的 好 坏 ， 又 因 


E(Bs:) =(n—g)+ 


75 


于 是 
Esc) _ 


oo? 
在 (6.3.11) 中 用 SSe。 代替 E(SSes), 用 o? 在 全 模型 下 的 估计 6? 代 蔡 o?, 便 得 到 
(6.3.10). 可 见 ， Cp 统计 量 是 作为 Ts 的 一 种 估计 产生 的 . 


Te = (n — 29), (6.3.11) 


3. AIC 准则 

极 大 似 然 原理 是 统计 学 中 估计 参数 的 一 种 重要 的 方法 ，Akaike 把 此 方法 加 以 修 
正 , 提出 一 种 较为 一 般 的 模型 选择 准则 , 称 为 Akaike 信息 量 准则 (Akaike information 
criterion, 简 记 为 AIC). 

对 于 一 般 的 统计 模型 ， 设 兰 ,…,Y 为 一 组 样本 ， 如 果 它 们 服从 某 个 含 上 个 
参数 的 模型 ， 对 应 的 似 然 函数 的 最 大 值 记 为 L(Y，,…,Y), 则 AIC 准则 是 选择 使 
AIC 统计 量 

AIC = InL(Yi,, Yn) 一 大 (6.3.12) 
达到 最 小 的 模型 下面 我 们 把 此 准则 应 用 于 回归 模型 自 变量 的 选择 . 
在 选 模型 (6.3.2) 中 ， 假 设 误差 e ~ N(0, o?7), 则 Bs 和 o? 的 似 然 函数 为 


pro = (2ro*)-"/rexp( — 35ly ~ XoBall). (6.3.13) 


容易 求 得 8, 和 o? 的 极 大 似 然 估 计 分 别 为 


SSeq _ YT— Xo XeXa) Xo)y 
no n 本 


万 = (XaXa) Xay, be 本 
代入 (6.3.13), 得 到 对 数 似 然 函 数 的 最 大 值 


InL(B, 53ly) = (I )” — 3) -Fin(ssco). 


2 
略 去 与 9 无 关 的 项 ， 按 照 (6.3.12) 式 得 到 

AIC = -3 ln(SS。) —q. 
按 AIC 准则 ， 我 们 选择 使 上 式 达 到 最 大 的 模型 等 价 地 ， 可 取 


AIC = nln(S$S.。,) + 26. (6.3.14) 
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于 是 ， 最 后 AIC 准则 归结 为 :选择 使 (6.3.14) 达到 最 小 的 自 变量 子 集 . 

除了 以 上 介绍 的 三 种 变量 选择 准则 外 , 还 有 多 种 准则 . 例如 预测 偏差 的 方差 准 
则 ， 平 均 预 测 均 方 误差 准则 ， PRESS 准则 等 ， 在 此 不 一 一 介绍 ， 详 细 讨 论 可 参阅 
文献 [27] 第 三 章 . 

例 6.3.1 ”Hald 水 泥 问 题 

考察 含 如 下 四 种 化 学 成 分 : 

zl 3CaO.Al203 的 含量 (%)， 

z2: 3Ca0.SiO， 的 含量 (%)， 

Zz3: 4CaO.Al203.Fe203 的 含量 (%)， 

za: 2CaO-SiO2 的 含量 (%) 
的 某 种 水 泥 , 每 一 克 所 释放 的 热量 Y 与 这 四 种 成 分 含量 之 间 的 关系 ,共有 13 组 数 


据 ， 列 在 表 6.3.1 中 . 
表 6.3.1 Hald 水 泥 问题 数据 


序号 zl1 2 Zs 4 y 
1 7 26 6 60 78.5 
2 1 29 15 52 74.3 
3 11 56 8 20 104.3 
4 11 31 8 47 87.6 
5 7 52 6 33 95.9 
6 11 55 9 22 109.2 
7 3 71 17 6 102.7 
8 汪 31 22 44 72.5 
9 2 54 18 22 93.1 

10 21 47 4 26 115.9 

11 1 40 23 34 83.8 

12 11 66 9 12 113.3 

13 10 68 8 12 109.4 
| 


此 问题 有 四 个 自 变量 ， 共 有 15 个 不 同 的 自 变量 子 集 ， 这 15 个 变量 子 集 的 LS 
估计 和 RMS。, Cp 及 AIC 值 列 在 表 6.3.2 中 . 从 表 6.3.1 可 以 看 出 , 子 集 {1, x2, zx4} 
对 应 的 RMS。 和 AIC 值 都 达到 最 小 ( 表 中 用 黑体 字 表 示 ), 因此 若 没有 别 的 附加 考 
虑 ， 在 RMS。 准则 或 AIC 准则 下 ， 最 优 子 集 回归 为 


y= 71.648 + 1.452zl + 0.4167z2 一 0.237z4- 


但 子 集 {z1, x2} 对 应 的 Cs 值 是 所 有 Cs 值 中 最 小 的 ( 表 中 用 黑体 字 表 示 ), 于 是 若 
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按 Cs 准则 选择 自 变量 子 集 ， 最 优 子 集 回归 为 


Y= 52.577 + 1.468z1 + 0.662z2. 


可 见 ， 在 不 同 的 选择 自 变量 准则 下 ， 与 之 相应 的 “最 优 ” 自 变量 子 集 也 不 尽 相同 . 
注意 到 {zl, zz?} 对 应 的 RMS。 也 比较 小 ， 所 以 , 综合 起 来 看 ， {z1,z2} 是 最 适合 采 


用 的 子 集 . 


表 6.3.2 ”Hald 水 泥 问题 参数 LS 估计 及 RMSgs，Cp 和 AIC 值 


模型 中 的 自 变量 | ”mo A Ea Bs Ba RMS。 Cp AIC 
Zl 81.479 | 1.869 115.0264 | 202.55 | 95.9950 
1Z2 52.577 | 1.468 | 0.662 5.7904 | 2.68 | 58.0033 
2 57.424 0.789 82.3942 | 142.49 | 91.6535 
ZT2T3 72.075 0.731 | —1.008 41.5443 | 62.44 | 83.6205 
1Z223 48.194 | 1.696 | 0.657 0.250 5.3456 3.04 57.7252 
1m3 72.349 | 2.312 0.494 122.7073 | 198.10 | 97.7001 
3 110.203 —1.256 176.3029 | 315.16 | 102.9394 
ZT3T4 131.282 一 1.200 | -0.724 | 17.5738 | 22.37 | 72.4360 
T1137T4 111.684 | 1.052 一 0.410 | -0.643 | 8.2017 3.50 63.2900 
T1727374 62.405 | 1.551 | 0.510 0.102 | -0.144 | 5.9829 5.00 59.8197 
ZT2T3T4 203.642 一 0.923 | 一 1.448 | ~1.557 | 5.6485 7.34 58.4417 
Zax4 94.160 0.311 一 0.457 | 86.8880 | 138.23 | 93.2127 
ZT1T2T4 71.648 | 1.452 | 0.416 —0.237 | 5.3303 3.02 | 57.6879 
124 103.097 | 1.440 一 0.614 | 7.4762 5.50 61.3251 


Ta 


117.568 


80.8515 


91.4078 


最 后 我 们 对 回归 自 变量 选择 中 的 计算 问题 作 一 点 的 说 明 ， 不 予 详细 讨论 (详细 


的 讨论 可 参阅 文献 [27]). 由 上 可 


] 知 ,无论 哪 一 种 变量 选择 准则 都 需要 对 不 同 的 自 变 


量子 集 进行 比较 ， 需 要 计算 出 对 应 的 回归 系数 的 估计 和 残 差 平方 和 ， 所 以 计算 量 非 
常 大 ， 而 且 误差 积累 也 是 一 个 不 容 忽视 的 问题 . 因此 ， 设 计 一 个 合理 的 计算 顺序 和 
有 效 的 算法 非常 必要 . 至 今 人 们 已 经 提出 了 许多 计算 所 有 可 能 子 集 回归 的 有 效 算 
法 ， 比 较 彻底 地 解决 了 自 变量 选择 中 的 计算 问题 . 这 些 算法 的 基本 方法 是 ， 在 计算 
所 有 可 能 子 集 回归 时 ， 使 得 下 一 步 要 计算 的 子 集 回归 和 前 一 步 的 子 集 回归 只 相差 
一 个 自 变量 ， 而 所 用 的 计算 都 是 扫描 运算 (sweep operator) 或 Gauss 消去 法 . 

除了 通过 计算 所 有 可 能 子 集 回归 寻求 最 优 子 集 回归 的 方法 外 ， 还 有 一 些 不 计 
算 所 有 可 能 子 集 回归 的 变量 选择 算法 ， 其 中 应 用 较 多 的 是 所 谓 的 逐步 型 回归 法 
逐步 型 回归 法 的 基本 思想 是 , 将 变量 一 个 一 个 引入 , 引入 变量 的 条 件 是 其 偏 回 归 平 
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方 和 经 检验 是 显著 的 . 同时 ， 每 引入 一 个 新 变量 ， 对 已 入 选 模型 的 老 变量 逐个 进行 
检验 , 将 经 检验 认为 不 显著 的 变量 剔除 ,以 保证 所 得 自 变量 子 集中 每 个 变量 都 是 显 
著 的 ， 此 过 程 经 若干 步 直到 不 能 再 引入 新 变量 为 止 , 此 方法 的 详细 讨论 可 参阅 文献 
[13], p.127. 
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在 前 面 几 节 ， 我 们 讨论 了 线性 回归 模型 的 LS 估计 及 检验 问题 ， 当 进行 上 述 讨 
论 时 ， 我 们 对 模型 做 了 一些 假设 ， 其 中 最 主要 的 是 Gauss-Markov 假设 ， 即 假定 模 
型 误差 e; 满足 下 列 条 件 。 (1) Var(ei) = o?( 等 方差 ); (2) Cov(ei, 6;) = 0, i 关 j( 不 
相关 ). 有 时 我 们 还 假设 e 服从 正 态 分 布 , 即 e; ~ N(0, o?). 人 们 自然 要 问 , 在 一 个 
有 具体 的 场合 ， 当 有 了 一 批 数据 之 后 ， 怎 样 考察 我 们 的 数据 基本 上 满足 这 些 假设 ， 这 
就 是 回归 诊断 中 要 研究 的 第 一 个 问题 . 因为 这 些 假设 都 是 关于 误差 项 的 ， 所 以 很 自 
然 我 们 要 从 分 析 它 们 的 估计 量 ( 残 差 ) 的 角度 来 解决 ， 正 是 这 个 原因 ， 这 部 分 内 容 
在 文献 中 也 称 为 残 差分 析 . 

回归 诊断 所 要 研究 的 另 一 个 重要 问题 ， 是 探查 对 统计 推断 (如 估计 或 预测 等 ) 
有 较 大 的 影响 的 数据 , 这 样 的 数据 称 为 强 影响 点 . 在 回归 分 析 中 , 因 变 量 Y 的 取 值 
久 具有 随机 性 ， 而 自 变量 Xi，…,Xp-1 的 取 值 zx = (za… zip_D)(i = 1 ,n) 
也 只 是 所 有 可 能 取 到 的 值 中 的 n 组 .我 们 希望 每 组 数据 (z!，, yi) 对 未 知 参数 的 估 
计 有 一 定 的 影响 ,但 这 种 影响 不 能 过 大 ， 这样 ， 我 们 得 到 的 经 验 回归 方程 就 具有 一 
定 的 稳定 性 . 不 然 的 话 ， 如 果 个 别 一 两 组 数据 对 估计 有 异常 大 的 影响 ,我 们 剔除 这 
些 数据 之 后 ,就 会 得 到 与 原来 差异 很 大 的 经 验 回归 方程 , 这 样 我 们 就 有 理由 怀疑 所 
建立 的 经 验 回 归 方程 是 否 真正 描述 了 因 变 量 与 诸 自 变 量 之 间 的 客观 存在 的 相依 关 
系 . 正 是 这 个 原因 ， 我 们 在 做 回归 分 析 时 ， 有 必要 考察 每 组 数据 对 参数 估计 的 影响 
大 小 这 部 分 内 容 在 回归 诊断 中 统称 为 影响 分 析 . 

另外 , 在 获得 的 一 批 数据 中 ,一 般 可 能 只 有 少量 的 数据 不 符合 模型 的 假设 ， 这 
种 数据 就 是 所 谓 的 异常 点 . 在 回归 分 析 的 实际 应 用 中 ,如 何 识别 ， 判 定 和 检验 异常 
点 也 是 回归 诊断 的 重要 内 容 ， 下 面 我 们 就 这 三 方面 的 内 容 分 别 讨论 . 


6.4.1 ” 残 差 和 残 差 图 
考虑 线性 回归 模型 


y= XB+e, Ele)=0, Cov(e)=o’1. (6.4.1) 


在 $4.1 我 们 已 经 定义 
é=y-Y=y— Xp 
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为 残 差 向 量 , 其 中 乡 = XP, 称 为 拟 合 值 向 量 ， 启 = (X'X)-1X'y 为 6 在 模型 (6.4.1) 
下 的 LS 估计 ， 如果 用 z4,… ,zh 表示 天 的 了 个 行 向 量 ， 则 


= (6.4.2) 


为 第 i 次 试验 或 观测 的 残 差 . 我 们 把 & 看 作 误差 ei 的 一 次 观测 值 , 如 果 模型 (6.4.1) 
正确 的 话 ， 它 应 该 具有 ei 的 一 些 性 状 . 因此 ， 我 们 可 以 通过 这 些 6; 以 及 基于 它们 
的 一 些 统计 量 来 考察 模型 假设 的 合理 性 . 6 的 性 质 可 归纳 为 以 下 定理 . 

定理 6.4.1 (1) E(é) =0,Cov(é) = oa?(T — Px); 

(2) 车 e ~ N(0, o27), 则 é~N(0, oz- Px)); 

(3) Cov(y, 6) = 0; 

(4) 1é = 0. 

注意 到 线性 回归 模型 设计 阵 的 特殊 性 ， 依 84.1 有 关 定 理 ， 上 述 性 质 易 证 . 

从 定理 6.4.1 我 们 看 到 Var(ei) = o?(1 - pii), 这 里 pi 为 Px 的 第 i 个 主 对 角 
元 .可 见 这 个 方差 与 因 变量 Y 的 度量 单位 以 及 pi 有 关 ， 因 此 直接 比较 残 差 6 是 
不 适宜 的 ， 为 此 将 其 标准 化 ， 得 到 

6 
ovVIi-—pa’ 
但 其 中 o 未 知 ， 用 其 估计 5= (ly 一 关公 2/(n 一 p))W? 代替 ， 得 到 所 谓 学 生化 残 差 
ei 
~ VIP 
这 里 需要 注意 的 是 ， 即 使 在 e ~ N(0, o?7) 的 条 件 下 ，r; 的 分 布 仍然 比较 复杂 ， 且 
诸 六 彼此 不 独立 .但 是 在 应 用 上 可 以 近似 地 认为 ri 相互 独立 且 服 从 N(0,1)( 详 细 
讨论 参阅 文献 [57]). 下 面 要 讲 的 残 差 图 就 是 主要 依据 这 个 事实 进行 模型 假设 合理 
性 诊断 . 

除了 上 面 我 们 介绍 的 两 种 残 差 外 , 还 有 多 种 从 不 同 角度 提出 的 残 差 的 定义 , 例 
如 预测 残 差 ， 不 相关 残 差 ， 偏 残 差 等 ， 有 兴趣 的 读者 可 参阅 文献 [27], p.95. 

所 谓 残 差 图 就 是 以 某 种 残 差 为 纵 坐 标 , 以 任何 其 它 的 量 为 模 坐标 的 散 点 图 . 前 
面 已 经 指出 残 差 作为 误差 e 的 观察 值 或 估计 应 该 与 ei 相差 不 远 ， 故 根据 残 差 图 的 
大 致 性 状 是 否 与 应 有 的 性 质 相 一 致 ,就 可 以 对 假设 e ~ (0, o?7) 的 合理 性 提供 一 些 
有 益 的 信息 .下 面 我 们 仅 就 以 拟 合 值 六 为 横 坐标 ， 学 生化 残 差 *; 为 纵 坐标 的 残 差 
图 为 例 讨论 残 差 图 的 具体 应 用 . 

图 6.4.1 就 是 以 拟 合 值 记 为 横 坐 标 ， 学 生化 残 差 7; 为 纵 坐标 的 残 差 图 .如果 
e ~ N(0, o?7) 成 立 , 根据 前 面 的 讨论 ，r; 近似 且 服 从 N(0; 1), 且 近 似 相互 独立 ， 


i=1,.,n. 


ni f= 1m (6.4.3) 
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因此 这 些 ri 可 以 近似 看 作 来 自 总 体 N(0,1) 的 一 组 简单 随机 样本 ， 根 据 标准 正 态 
分 布 的 性 质 ， 大 约 应 有 95% 的 ri 落 在 [-2,2] 中 ， 再 有 定理 6.4.1(3), 了 与 残 差 & 
不 相关 ， 因 而 与 学 生化 残 差 " = (r1,…,rn) 相关 性 也 很 小 所 以 在 残 差 图 中 ， 点 
(加 rm)(i = 1,…,n) 大 致 应 落 在 宽度 为 4 的 水 平 带 |ri| < 2 区 域内 ， 且 不 呈 任 何 的 
趋势 ， 如 图 6.4.1(a), 这 时 数据 与 假设 e ~ N(0, o?7) 没有 不 一 致 的 征兆 ， 我 们 就 可 
以 认为 假设 e ~ N(0, o?7) 基本 上 是 合理 的 .而 图 6.4.1(b)~(d) 显示 出 了 等 方差， 
即 Var(ei) = c2(i = 1,.…,n) 不 满足 ， 其 中 图 (b) 显示 了 误差 随 各 的 增 大 有 增加 的 
趋势 .而 图 (c) 所 显示 的 情形 正好 相反 ， 即 误差 方差 随 的 增 大 而 减 小 ， 但 是 图 
(d) 显示 对 较 大 或 较 小 的 六 , 误差 方差 偏 小 ,而 对 中 等 大 小 的 名, 误差 方差 偏 大 ,图 
(e) 和 (f) 表明 回归 函数 可 能 是 非 线性 的 ， 或 误差 ei 之 间 有 一 定 相关 性 或 漏 掉 了 一 
个 或 多 个 重要 的 回归 自 变量 . 究竟 属于 何 种 情况 ， 还 需 作 进一步 的 诊断 . 这 种 一 种 
“症状 ”可 能 产生 于 多 种 不 同 的 “疾病 ”的 情况 正 是 回归 诊断 的 困难 所 在 ， 在 具体 
处 理 时 ， 和 医生 治 病 一 样 ， 临 床 经 验 是 非常 重要 的 . 
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为 了 从 不 同 的 角度 分 析 残 差 , 我 们 可 以 做 其 它 一 些 残 差 图 . 例如 ， 如 果 因 变量 
是 按时 间 观 察 的 ， 那 么 办，…,gm 表示 了 分 别 在 时 刻  ,…,t， 的 因 变 量 观测 值 ， 则 
我 们 可 以 取 时 间 + 或 观察 序号 为 横 坐 标 ， 构 造 (tsri) 或 (i,7;) 的 残 差 图 ， 又 警 如 ， 
我 们 也 可 以 将 某 个 自 变量 X 作为 横 坐 标 . 不 同 的 残 差 图 可 能 从 不 同 角度 提供 一 些 
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有 用 的 信息 . 

从 残 差 图 诊断 出 来 的 可 能 的 “疾病 ">， 也 就 是 某 些 假设 条 件 不 成 立 ， 我 们 就 需 
要 对 问题 “对症下药 ”. 如 果 有 症状 使 我 们 怀疑 因 变量 Y 对 自 变 量 的 依赖 不 仅仅 是 
线性 关系 ,那么 我 们 就 可 以 考虑 在 回归 自 变量 中 增加 某 些 自 变量 的 二 次 项 ， 如 X?， 
或 3 或 交叉 项 X1X2 等 . 至 于 增添 哪些 变量 的 二 次 项 和 那些 变量 的 交叉 项 这 就 需 
要 通过 对 实际 问题 的 分 析 和 实际 计算 ， 看 其 实际 效果 ， 若 增加 二 次 项 X?, X3 和 交 
叉 项 XX2, 可 以 通过 引进 新 变量 2Z1 = X?, Z2 = X3, Za = XiX2, 把 问题 化 成 线性 
回归 形式 ,如 果 残 差 图 显示 了 误差 方差 不 相等 ,我们 可 以 有 两 种 治疗 方案 . 其 一 是 
对 因 变 量 做 变换 ,使 得 变换 后 的 新 变量 具有 近似 相等 的 方差 . 虽然 在 理论 上 有 一 些 
原则 可 遵循 (参阅 文献 [27], p.122), 但 在 实际 应 用 中 还 是 要 人 靠 对 具体 情况 的 分 析 ， 
提出 一 些 可 选择 的 变换 , 然后 通过 实际 计算 比较 他 们 的 客观 效果 . 另 一 种 方法 是 应 
用 加 权 LS 估计 ， 关 于 加 权 LS 估计 ， 第 四 章 已 经 讨论 过 了 ， 这 种 方法 的 困难 之 处 
在 于 权 往往 是 未 知 的 ， 需 要 设法 给 出 估计 .如 果 是 图 (e) 和 (f) 的 情形 ， 应 该 仔细 
分 析 实际 问题 ， 试 探 各 种 治疗 方案 . 特别 ， 有 一 种 因 变 量 的 变换 ， 它 是 从 综合 角度 
考虑 ( 即 要 求 对 因 变 量变 换 过 之 后 ， 新 的 因 变 量 关 于 诸 自 变量 具有 线性 相依 关系 ， 
且 误 差 服从 正 态 ， 等 方差 ， 相 互 独立 等 ) 提出 的 一 种 ”治疗 方案 ”, 在 实际 应 用 中 效 
果 比 较 好 ， 这 就 是 著名 的 Box-Cox 变换 ， 这 将 在 下 一 节 讨 论 . 

例 6.4.1 一 公司 为 了 研究 产品 的 营销 策略 , 对 产品 的 销售 情况 进行 了 调查 . 
设 Y 表示 某 地 区 该 产品 的 家 庭 人 均 购买 量 (单位 ， 元 ), X 表示 家 庭 人 均 收 入 ( 单 
位 : 元 ). 表 6.4.1 记录 了 53 个 家 庭 的 数据 ,应 用 最 小 二 乘法 ， 求 得 了 对 X 的 一 元 
经 验 回归 方程 为 

立 = 一 0.8313 + 0.003683X. 


相应 的 残 差 & 和 拟 合 值 如 也 列 在 表 6.4.1 中 ， 图 6.4.2 是 以 记 为 横 轴 ， 残 差 8: 为 
纵 轴 的 残 差 图 . 直观 上 容易 看 出 ， 残 差 图 从 左 向 右 逐 渐 散 开 呈 漏斗 状 ， 这 是 误差 方 
差 不 相 等 的 一 个 征兆 。 考 虑 对 因 变量 Y 作 变 换 ， 先 试 变换 2 = Y1/?, 得 到 经 验 回 
归 方程 

多 = 0.5822 + 0.000953X. 


计算 新 的 残 差 &, 新 的 残 差 图 为 6.4.3, 从 图 6.4.3 看 出 , 残 差 图 已 无 任何 明显 趋势 ， 
这 表明 我 们 所 用 的 变换 是 合适 的 .最 后 得 到 的 经 验 回 归 方程 为 


Y=22= (0.5822 + 0.000953X)? = 0.3390 + 0.001X 十 0.00000091X2. 
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5 广 
>、 . 
图 6.4.2 图 6.4.3 
表 6.4.1 家 庭 人 均 收 入 数据 
i | x Od a | z=v7 让 可 
4 679 0.790 1.669 一 0.879 0.889 1.229 一 0.340 
2 292 0.440 0.244 0.196 0.663 0.860 一 0.197 
3 1012 0.560 2.896 一 2.336 0.748 1.547 一 0.798 
4 493 0.790 0.984 一 0.194 0.889 1.052 一 0.163 
5 582 2.700 1.312 1.388 1.643 1.137 0.506 
6 1156 3.640 3.426 0.214 1.908 1.684 0.224 
2. 997 4.730 2.840 1.890 2.175 1.532 0.643 
8 2189 9.500 7.230 2.270 3.082 2.668 0.414 
9 1097 5.340 3.209 2.131 2.311 1.628 0.683 
10 2078 6.850 6.822 0.028 2.617 2.562 0.055 
11 1818 5.840 5.864 一 0.024 2.417 2.315 0.102 
12 1700 5.210 5.430 -0.220 2.283 2.202 
13 747 3.250 1.920 1.330 1.803 1.294 
14 2030 4.430 6.645 -£2.215 2.105 2.517 
15 1643 3.160 5.220 一 24 1.778 2.148 
16 414 0.550 0.693 一 0.193 0.707 0.977 
和 354 0.170 0.472 —0.302 0.412 0.920 
18 1276 1.880 3.868 一 1.988 1.371 1.798 
19 745 0.770 1.912 一 1.142 0.877 1.292 
20 435 1.390 0.771 0.619 1.179 0.997 


21 540 0.560 1.157 一 0.597 0.748 1.097 
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续 表 
i | x( 元 ) Y( 元 ) ss | 32=v7 并 到 
27 837 4.200 2.251 2.049 1.380 0.670 
28 1255 2.630 3.791 1.622 1.778 一 0.156 
29 1748 4.880 5.606 2.209 2.248 一 0.039 
30 1381 3.480 4.255 1.865 1.898 一 0.033 
31 1428 7.580 4.428 2.753 1.943 0.810 
32 1777 4.990 5.713 2.234 2.275 一 0.042 
33 370 0.590 0.531 0.768 0.935 一 0.167 
34 2316 8.190 7.698 2.862 2.789 0.073 
35 1130 4.790 3.330 2.189 1.659 0.530 
36 463 0.510 0.874 0.714 1.023 一 0.309 
37 770 1.740 2.004 1.319 1.316 0.003 
38 724 4.100 1.835 2.025 1.272 0.753 
39 808 3.940 2.144 1.985 1.352 0.633 
40 790 0.960 2.078 0.980 1.335 一 0.355 
41 783 3.290 2.052 1.814 13288@8 0.486 
42 406 0.440 0.664 0.663 0.969 一 0.306 
43 1242 3.240 3.743 1.800 1.766 0.034 
44 658 2.140 1.592 1.463 1.209 0.254 
45 1746 5.710 5.599 2.390 2.246 0.144 
46 468 0.640 0.892 0.800 1.028 一 0.228 
47 1114 1.900 3.271 1.378 1.644 一 0.265 
48 413 0.510 0.690 0.714 0.976 一 0.262 
49 1787 8.330 5.750 2.886 2.285 0.601 
50 3560 14.940 12.280 3.865 3.974 一 0.109 
51 1495 5.110 4.675 2.261 2.007 
52 2221 3.850 7.348 1.962 2.699 
53 1526 3.930 4.789 1.982 2.036 0, 
—————— 


6.4.2 ”影响 分 析 


本 段 我 们 讨论 回归 诊断 的 第 二 个 问题 ， 即 探查 对 估计 或 预测 有 较 大 影响 的 数 
据 ， 为 此 ， 我 们 先 引进 一 些 记号 .用 yt), XG) 和 eti) 分 别 表示 从 y,X 和 。 中 剔除 
第 ; 行 后 得 到 的 向 量 或 矩阵 ， 从 线性 回归 模型 (6.4.1) 剔除 第 ;组 数据 后 ， 剩 余 的 
n 一 1 组 数据 的 线性 回归 模型 记 为 


Vi)= XB+e), Eley)=0, Cov(e())= oIn1. (6.4.4) 
从 模型 (6.4.4) 求 到 的 8 的 LS 估计 记 为 所 j, 则 
By = (XX XY): (6.4.5) 


很 显然 ,向量 一 有;) 反映 了 第 i 组 数据 对 回归 系数 估计 的 影响 大 小 ,但 它 是 一 个 
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向 量 ,不 便于 定量 的 比较 影响 的 大 小 ,于 是 考虑 它 的 某 种 数量 化 函数 . Cook 统计 
量 就 是 其 中 应 用 最 为 广泛 的 一 种 . 

Cook 统计 量 定义 为 
B-BOYX KB Py) ee (6.4.6) 

p62 

这 里 6? = ly -Xp2/(n - p). 这 祥 我 们 就 可 以 用 数量 Di 来 刻画 第 i 组 数据 对 回 
归 系 数 估计 的 影响 大 小 了 ， 下面 定理 给 出 一 个 计算 D; 的 简便 公式 . 

定理 6.4.2 


疡 


英 乞 了 人 (6.4.7) 


这 里 pt 为 矩阵 Px = X(X'X)-1X' 的 第 i 个 主 对 角 元 ，7; 是 学 生化 残 差 . 
证 明 设 4 为 nxn 可 递 阵 ，w 和 vw 均 为 nx 1 向量， 利用 恒等式 
A-luv'A-! 


9 (A=) A rT 
交 
(XK) = (XK sel) = (XX)-1+ ED 0 (6.4.8) 
这 里 z 为 XX 的 第 i 行将 上 式 两 边 右 乘 X'y, 并 利用 
X'y = XY) 十 ii 
以 及 (6.4.5), 我 们 有 
» a 1 Ca /有 
B= Bot uxioXeo) es — ED. (649) 
将 (6.4.8) 右 乘 ri 得 到 
CX a = TX) 
将 上 式 代入 (6.4.9), 利用 残 差 的 定义 得 到 
BAly = er {6.4.10) 


代入 (6.4.6), 再 利用 学 生化 残 差 的 定义 ， 便 证 明了 所 要 的 结论 . 

此 定理 告诉 我 们 ， 在 计算 Cook 统计 量 时 ， 只 需要 从 完全 数据 的 线性 回归 模型 
计算 出 学 生化 残 差 i, 正 交 投影 阵 Px 的 主 对 角 元 就 可 以 了 ， 不 必 对 每 一 个 不 完全 
数据 的 线性 回归 模型 (6.4.4) 进行 计算 . 
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在 (6.4.7) 中 ， 除 了 与 i 无关 的 因子 1/p 外 ， Cook 统计 量 D; 被 分 解 成 两 部 


分 ， 其 中 一 部 分 为 


1—pa 
它 是 pss 的 单调 增 函数 ， 因 为 ps 度量 了 第 i 组 数据 z; 到 试验 中 心 2 = 1 部) zi 
的 距离 ， 因此， 本质 上 忆 刻画 了 第 i 组 数据 x; 距离 其 它 数据 的 远近 ， 而 另 一 部 分 
为 邓 . 直观 上 ,如果 一 组 数据 距离 试验 中 心 很 远 ， 并 且 对 应 的 学 生化 残 差 又 很 大 ， 
那么 它 必 定 是 强 影 响 点 .但 是 ， 要 给 Cook 统计 量 一 个 用 以 判定 强 影响 点 的 临界 什 
是 很 困难 的 ， 在 应 用 上 要 视 具体 问题 的 实际 情况 而 定 . 

下 面 我 们 借助 例 5.2.1 的 结论 对 Cook 统计 量 D; 的 值 的 大 小 给 出 概率 解释 . 
由 例 5.2.1 知 


hh= 


全 ra 
为 未 知 参 数 8 的 置信 系数 为 1 - a 置信 椭 球 .上 式 左 端 如 果 用 66) 代替 6, 就 得 到 
了 Cook 统计 量 . 因此 ， 若 Pi = ,np(a), 则 表明 将 第 i 组 数据 剔除 后 ， 6 的 估 
计 Bt 从 月 处 移 到 了 B 的 置信 系数 为 1 一 a 置信 椭 球 边界 上 ， 这 样 ， 我 们 可 以 借 
助 于 置信 系数 的 大 小 来 评价 Di 的 大 小 . Di 对 应 的 置信 系数 愈 大 ， 表 明 第 i 组 数 
据 的 影响 愈 大 . 

除 Cook 统计 量 外 ,统计 学 家 还 从 不 同 的 角度 提出 了 多 种 度量 影响 的 其 它 统计 
量 . 例如 ， 从 模型 拟 合 角度 提出 的 Welsch-Kuh 统计 量 ， 从 考虑 数据 对 误差 的 估计 
的 影响 提出 的 AP 统计 量 ， 从 估计 的 广义 方差 出 发 握 出 的 协 方差 比 统计 量 , 还 有 从 
比较 数据 剔除 前 后 信息 损失 的 大 小 提出 的 信息 比 统计 量 等 等 . 另外 ,研究 多 组 数据 
的 影响 度 最 也 是 影响 分 析 的 重要 内 容 . 由 于 受 篇 幅 的 限制 ， 这 里 我 们 不 一 一 介绍 . 

例 6.4.2 ”智力 测试 数据 

表 6.4.2 是 教育 学 家 测试 的 21 个 儿童 的 记录 ， 其 中 X 为 儿童 的 年 龄 (以 月 为 
单位 ),Y 表示 某 种 智力 指标 . 通过 这 些 数据 ,我 们 要 建立 智力 随 年 龄 变化 的 关系 . 

考虑 直线 回归 y = a + BX +e a 和 有 的 LS 估计 分 别 为 & = 109.87 和 
户 = -1.13, 于 是 经 验 回归 直线 为 了 = 109.87 - 1.13X. 表 6.4.3 给 出 了 各 组 数据 的 
有 关 诊 断 统计 量 . 


表 6.4.2 ”智力 测试 数据 
序号 | = y 序号 | = y 序号 | = 3 序号 | z y 
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从 表 6.4.3 看 出 ， Dis = 0.6781 是 所 有 Di 中 最 大 的 ， 而 其 它 Pi 值 与 Dis 相 
比 也 十 分 小 . 因此 ， 第 18 号 数据 是 一 个 对 回归 估计 影响 很 大 的 数据 ， 对 此 数据 我 
们 就 要 格外 注意 ， 譬如 ,检查 原始 数据 的 抄录 是 否 有 误 ， 如 果 有 误 ， 则 需 改 正 后 重 
新 计算 ， 不 然 ， 需 要 从 原始 数据 中 剔除 它 . 


表 6.4.3 ”智力 测试 数据 的 诊断 统计 量 


序号 名 Ti Pii Pr 让 
1 2.0310 0.1888 0.0479 oo0009 | 01839 
各 一 9.5721 一 0.9444 0.1545 0.0815 0.9416 
3 一 15.6040 一 9.8216 0.0628 0.0717 0.8143 
4 —8.7309 一 0.8216 0.0705 0.0256 0.8143 
5 9.0310 0.8397 0.0479 0.0177 0.8329 
6 一 0.3341 ~0.0315 0.0726 0.0000 0.0307 
有 3.4120 0.3189 0.0580 0.0031 0.3112 
8 2.5230 0.2357 0.0567 0.0017 0.2298 
9 3.1420 0.2972 0.0799 0.0038 0.2899 

10 6.6659 0.6280 0.0726 0.0154 0.6177 
11 11.0151 1.0480 0.0908 0.0548 1.0508 
12 一 3.7309 一 0.3511 0.0705 0.0047 0.3429 
13 一 15.6040 一 1.4623 0.0628 0.0717 1.5108 
14 一 13.4770 一 1.2588 0.0567 0.0476 1.2798 
15 4.5230 0.4225 0.0567 0.0054 0.4131 
16 1.3960 0.1308 0.0628 0.0006 0.1274 
17 8.6500 0.8060 0.0521 0.0179 0.7982 
18 一 5.5403 一 0.8515 0.6516 0.6781 0.8450 
19 30.2850 2.8234 0.0531 0.2233 3.6071 
20 —11.4770 ~1.0720 0.0567 0.0345 1.0765 
21 1.3960 0.1308 0.0628 0.0006 0.1274 


最 后 需要 指出 的 是 , 影响 分 析 只 是 研究 探查 强 影响 数据 的 统计 方法 ,至 于 对 已 
经 确认 的 强 影 响 数据 如 何 处 理 ， 这 和 需要 具体 问题 具体 分 析 ， 往 往 先 要 仔细 核查 数 
据 ,获得 全 过 程 . 如 果 强 影响 数据 是 由 于 试验 条 件 失控 或 记录 失误 或 其 它 一 些 过 失 
所 致 那么 这 些 数 据 应 该 婚 除 .不 然 的 话 ， 应 该 考虑 收集 更 多 的 数据 或 采用 一 些 稳 
健 估计 方法 以 缩小 强 影响 数据 对 估计 的 影响 ， 从 而 获得 较 稳 定 的 经 验 问 归 方 程 . 


6.4.3 ”异常 点 检验 


在 回归 分 析 中 ， 一 组 数据 (z, y:) 如 果 它 的 残 差 (ai 或 ri) 较 其 它 组 数据 的 残 
差 大 得 多 ， 则 称 此 数据 为 异常 点 本 段 我 们 讨论 探查 异常 点 的 一 种 检验 . 
为 方便 讨论 ， 我 们 把 正 态 线性 回归 模型 改写 为 如 下 的 分 量 形式 ， 


=2Bt+e, emwvN oz， i=1,..,n, (6.4.11) 
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这 里 ei(i = 1,…,n) 相互 独立 .如 果 第 7 组 数据 (z;,y;) 是 一 个 异常 点 ， 那 么 它 的 
残 差 之 所 以 很 大 是 因为 它 的 均值 E(y;) 发 生 了 非 随机 漂移 5, 从 而 E(y;) = zB 十. 
这 样 就 产生 了 一 个 新 模型 


| Yi= ZB +ei, i (6.4.12) 


=7B+n+e, ei~N(O, o?). 


记 dj; = (0,…,0,1,0,…,0)', 这 是 一 个 n 维 向 量 ， 它 的 第 ; 个 元 素 为 1, 其 余 元 素 
为 零 ， 将 模型 (6.4.12) 写成 矩阵 形式 


y= XB+dnt+e, e~N(O, o7), (6.4.13) 


模型 (6.4.12) 和 (6.4.13) 称 为 均值 漂移 线性 回归 模型 . 要 判定 (z;,y;) 不 是 异常 点 ， 
等 价 于 检验 线性 假设 瓦 :7 = 0. 

为 了 导出 所 要 的 检验 统计 量 , 我 们 下 面 先 给 出 漂移 模型 (6.4.13) 中 参数 6 和 也 
的 LS 估计 . 分 别 记 这 些 估计 为 8* 和 mn. 显然 ,假设 n= 0 成 立时 ， 有 的 LS 估计 
就 是 启 = (X'X)-1X'y. 

定理 6.4.3 ”对 均值 漂移 线性 回归 模型 (6.4.13), 8 和 7 的 LS 估计 分 别 为 
Se 1 
1—pj 
这 里 有 tj) 为 非 均值 漂移 线性 回归 模型 (6.4.11) 剔除 第 7 组 数据 后 得 到 的 8 的 LS 估 
计 ， pjj 为 Px 的 第 j 个 主 对 角 元 ，é& 为 从 模型 (6.4.11) 导出 的 第 j 个 残 差 . 

证 明 显然 ，djy = dydj =1 记 针 = (z1,…,zn), 则 Xidj = z;. 于 是 根 


据 定 义 
E+ 1 ~ 
( -|| (Xj) . y= A : 
7 od 者 7 1 2 


根据 分 块 矩 阵 的 求 道 公式 ， 以 及 pjj = z(X'X)-1z;, 有 


P= 仿 


人 


a 1 2 (XX)-! 1 


pj 


( ) 人 XA + XX KX) 一 于 二 (1 ) 
7 


-pjy 


人 x ) ( B+ Th (XX) -10 (XX)-1syy | 


ge ES | 
外 pp + hy 
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| 人 -0 
rn 


再 根据 公式 (6.4.10), 命题 得 证 . 


这 个 定理 告诉 我 们 一 个 很 重要 的 事实 ， 如 果 因 变量 的 第 ; 个 观测 值 发 生 均 值 
漂移 ， 那 么 在 相应 的 均值 漂移 的 回归 模型 中 ， 回 归 系 数 的 LS 估计 恰 等 于 原来 模型 


中 剔除 第 7 组 数据 后 ， 所 获得 的 LS 估计 . 


下 面 我 们 应 用 定理 5.1.1, 来 求 检验 万 : m = 0 的 统计 量 . 注意 到 对 现在 的 情形 ， 
把 约束 条 件 m= 0 代入 模型 (6.4.13), 得 到 的 约 简 模 型 就 是 模型 (6.4.11), 于 是 


SSre = 模型 (6.4.11) 的 残 差 平方 和 = yy 记 X'y. 
而 模型 (6.4.13) 的 无 约束 残 差 平方 和 
SSe =yy— PB" XYy— dy. 
利用 定理 5.1.1 得 


SSHe - SSe = (8 — PB)'X'y+ ndy 


= hr + hy = Th, 
这 里 6 = yi 一 26 为 原 模型 下 第 了 组 数据 的 残 差 
利用 B* 和 人 的 具体 表达 式 将 (6.4.14) 作 进 一 步 化 简 : 
SS =Vy PXYF SN HW nn 
VN ee 1 一 Pi 


其 中 =|ly 一 六 BI?/(n 一 中. 根据 定理 5.1.1, 所 求 的 检验 统计 量 为 


P= SS 上 一 SS。 (n -Pp- 1) _ (rn-p-1)r} 


SSe/(n—~p—1) (np)a7 1 mp 一 他 


这 里 


日 
人 ovV1 = Pj 
为 学 生化 残 差 ， 于 是 我 们 证 明了 如 下 事实 : 


(6.4.14) 


(6.4.15) 


定理 6.4.4 ”对 于 均值 漂移 线性 回归 模型 (6.4.13), 如 果 假 设 万 : 7 = 0 成 立 ， 


则 
Fe= tm=p— fy3 


a mp 一 他 ~ Hn-p-1: 
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据 此 ， 我 们 就 得 到 如 下 检验 ， 对 给 定 的 a(0 < a < 1), 若 


i 2 
PD (6.4.16) 


如 EE be 


则 判定 第 7 组 数据 (2;,y) 为 异常 点 .当然 ， 这 个 结论 可 能 是 错 的， 也 就 是 说 ， 
{z4 纺 ) 可 能 不 是 异常 点 ， 而 被 误 判 为 异常 点 .但 我 们 犯 这 种 错误 的 概率 只 有 oa, 事 
先 我 们 可 以 把 它 控制 得 很 小 . 

显然 , 根据 分布 和 下 分 布 的 关系 , 我 们 也 可 以 用 上 检验 法 完成 上 面 的 检验 . 


若 定义 人 
=F (n—p— 1)r? 
eR n-p— 呈 
则 对 给 定 的 a, 当 
全 | > 名 -pi(3) 


时 ， 我 们 拒绝 假设 太 : n = 0, 即 判定 第 7 组 数据 (z4, 妨 ) 为 异常 点 . 

例 6.4.3 ( 续 例 6.4.2) ”对 于 例 6.4.2 所 讨论 的 智力 测试 问题 ， 现 在 我 们 检验 
21 组 数据 中 是 否 有 异常 点 . 表 6.4.3 最 后 一 列 给 出 各 组 数据 对 应 的 ti 值 ， 对 现在 
问题 ，n = 21,p = 2,n -p 一 1= 18, 对 给 定 的 水 平 a = 0.05， 


tas(0.025) = 2.101. 


从 6.4.3 最 后 一 列 可 以 看 出 只 有 be = 3.6071 超过 这 个 值 . 于 是 ， 我 们 认为 第 19 号 
数据 为 异常 点 ， 

事实 上 , 异常 点 的 检验 是 一 个 很 复杂 的 问题 . 首先 ,我们 必须 确定 异常 点 的 个 
数 ， 如 果 只 有 一 个 异常 点 ， 那 么 可 以 应 用 定理 6.4.4 来 检验 ， 如 果 有 多 个 异常 点 ， 
我 们 就 不 能 应 用 这 个 定理 去 逐个 检验 ,而 需要 多 个 点 的 同时 检验 . 虽然 我 们 可 以 毫 
无 困难 地 把 定理 6.4.4 推广 到 多 个 异常 点 的 检验 情形 ， 但 是 问题 往往 出 在 异常 点 的 
个 数 的 确定 上 面 . 如 果 所 假设 的 个 数 小 于 实际 个 数 ,那么 可 能 由 于 未 被 怀疑 的 异常 
点 的 存在 而 产生 掩盖 现象 , 使 得 真正 的 异常 点 检验 不 出 来 . 如 果 我 们 所 假设 的 异常 
点 个 数 大 于 实际 个 数 ， 则 可 能 把 正常 点 误 判 为 异常 点 . 因此 ， 此 方向 的 研究 目前 仍 
比较 活跃 ， 想 对 这 一 方向 作 进一步 了 解 的 读者 可 参阅 文献 [51] 和 [52]. 


86.5 ”Box-Cox 变换 


对 观测 得 到 的 试验 数据 集 (z，,y:),， i = 1,…,n, 若 经 过 回归 诊断 后 得 知 ， 它 
们 不 满足 Gauss-Markov 条 件 ， 我 们 就 要 对 数据 采取 “治疗 ”措施 ， 实 践 证 明 ， 数 
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据 变换 是 处 理 有 问题 数据 的 一 种 好 方法 . 数据 变换 方法 有 多 种 ， 本 节 介 绍 最 著名 
的 Box-Cox 变换 , 它 的 主要 特点 是 引入 一 个 参数 ,通过 数据 本 身 估计 该 参数 ， 从 而 
确定 应 采取 的 数据 变换 形式 ， 实 践 证 明 ， Box-Cox 变换 对 许多 实际 数据 都 是 行 之 
有 效 的 ， 它 可 以 明显 地 改善 数据 的 正 态 性 ， 对 称 性 和 方差 相等 性 . 

Box-Cox 变换 是 对 回归 因 变 量 的 如 下 变换 : 


Yl 
， Az0, 
YN = | # (6.5.1) 

Iny, 入 = 0， 


这 里 是 一 个 待定 变换 参数 . Box-Cox 变换 是 一 族 变 换 ， 它 包括 了 许多 常见 的 变 
换 ， 诸 如 对 数 变换 (和 = 0), 倒数 变换 (和 = -1) 和 平方 根 变换 (和 = 1/2) 等 等 . 

对 因 变量 的 m” 个 观测 值 y,… ,yn, 应 用 上 述 变换 ， 得 到 变换 后 的 向 量 

3 = (yy 
我 们 要 确定 变换 参数 X, 使 得 y(A) 满足 
y=XB+e, ew~NO o27). (6.5.2) 

这 也 就 是 说 , 要 求 通过 因 变 量 的 变换 , 使 得 变换 过 的 向 量 y() 与 回归 自 变量 之 间 具 
有 线性 相依 关系 ， 误 差 也 服从 正 态 分 布 ， 误 差 各 分 量 是 等 方差 且 相 互 独立 ， 因此 ， 
Box-Cox 变换 是 通过 参数 和 的 选择 ， 达 到 对 原来 数据 的 “综合 治理 "， 使 其 满足 一 
个 正 态 线性 回归 模型 的 所 有 假设 条 件 . 

我 们 用 极 大 似 然 方法 来 确定 X, 因为 y) ~ N(XB，o?7), 所 以 对 固定 的 和 B 和 
0? 的 似 然 函数 为 


L(8, o7) = pa — XB)'(yN — Xp)}, (6.5.3) 

这 里 J 为 变换 的 Jacobi 行列 式 
一 让 二 
因此 ， 当 4 固定 时 ， J 是 不 依赖 于 参数 8 和 o? 的 常数 因子 ， L(B, o2) 的 其 余部 
分 关于 8 和 o? 求 导数 ， 令 其 等 于 零 ， 可 以 求 得 8 和 o? 的 极 大 似 然 信 计 
BPO) = (XX)-1XyN, (6.5.4) 
PO) = By (1 XOX) TX)yN = 1Sso(A wo)， 
这 里 残 差 平方 和 为 
SSe(X, yO) =y NT — XXX)-LX) yy, 

对 应 的 似 然 本 数 最 大 值 为 
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SS.e(A, (X)) 一 n/2 
(一 一 ) (6.5.5) 


Lmax(X) = LUB(A)，52(A)) = (2rej ”27 


这 是 的 一 元 函数 ， 通 过 求 它 的 最 大 值 来 确定 X, 因 nz 是 z 的 单调 函数 ， 我 们 
的 问题 可 以 化 为 求 In Lmax( 和 ) 的 最 大 值 ， 对 (6.5.5) 求 对 数 ， 略 去 与 和 无 关 的 常数 
项 , 得 


Tr 一 和 SSe(A， yN)+Iny 


寅 二, 1 i (和) 
过 sin (Yo - XERXES 区 2 nSSe(X, z%)), 


到 

(6.5.6) 
其 中 

SSe(A，zC)) = z0) (FT — XXX)-X)zN), (6.5.7) 

0) 

A pee, 

A 
i 和 天 0 

z= I (6.5.8) 


(nyw)(TIz 6)s， 和 = 0 


(6.5.6) 式 对 Box-Cox 变换 在 计算 机 上 实现 带 来 很 大 方便 , 这 是 因为 为 了 求 In Lmax (和 ) 
的 最 大 值 ， 我 们 只 需要 求 残 差 平方 和 SS(X，z(>)) 的 最 小 值 ， 虽 然 我 们 很 难 找 出 使 
SSe(X，z(>)) 达到 最 小 值 的 和 的 解析 表达 式 ， 但 对 一 系列 给 定 的 和 值 ， 通 过 最 普通 
的 求 LS 估计 的 回归 程序 , 我 们 很 容易 计算 出 对 应 的 SSe(A，z(》)), 画 出 SSe(A，z()) 
关于 和 的 曲线 ， 从 图 上 可 以 近似 地 找 出 使 SSe(A，z()) 达到 最 小 值 的 入 . 

现在 我 们 把 Box-Cox 变换 的 具体 步骤 归纳 如 下 : 

(D 对 给 定 的 和 值 ， 利 用 (6.5.8) 计算 zf ). 

(2) 利用 (6.5.7) 式 计算 残 差 平方 和 SSe(A，z(A))， 

(3) 对 一 系列 的 和 值 ， 重 复 上 述 步骤 ， 得 到 相应 的 残 差 平方 和 SS。(X，z()) 的 
一 串 值 ， 以 和 为 横 轴 ， 作 出 相应 的 曲线 .用 直观 的 方法 ， 找 出 使 SSe(A，z()) 达到 
最 小 值 的 点 入 

(4) 利用 (6.5.4) 求 出 B(A). 

例 6.5.1 在 例 6.4.1 中 ,我们 对 因 变 量 Y 作 了 平方 根 变换 ， 这 相当 于 选用 变 
换 参数 = 0.5. 应 用 本 节 的 方法 ， 我 们 可 以 证 实 作 这 样 的 变换 是 合适 的 ， 表 6.5.1 
给 出 了 12 个 不 同 和 值 对 应 的 残 差 平方 和 SSe(X，z(>)), 简单 比较 可 以 看 出 当 入 = 0.5 
时 ， 残 差 平方 和 SSe(X，z()) 达到 最 小 ， 因 此 我 们 可 以 近似 地 认为 0.5 就 是 变换 参 
数 的 最 优选 择 . 
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表 6.5.1 
入 一 2 一 ! —0.5 0 0.125 0.25 
RSS 34101.04 986.04 291.59 134.10 119.20 107.21 
入 0.375 0.5 0.625 0.75 让 2 
RSS 100.26 96.95 97.29 101.69 127.87 1275.56 
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根据 前 面 的 讨论 我 们 知道 ， 回 归 系数 的 LS 估计 有 许多 优良 性 质 ， 其 中 最 为 重 
要 的 是 Gauss-Markov 定理 , 它 保证 了 LS 估计 在 线性 无 偏 估计 类 中 的 方差 最 小 性 . 
正 是 由 于 这 一 点 ，LS 估计 在 线性 统计 模型 的 估计 理论 与 实际 应 用 中 占有 绝对 重要 
的 地 位 . 随 着 电子 计算 机 技术 的 飞速 发 展 ， 人们 愈 来 愈 多 地 有 能 力 去 处 理 含 较 多 回 
归 自 变量 的 大 型 回归 问题 ， 许 多 应 用 实践 表明 ， 在 这 些 大 型 线性 回归 问题 中 ， LS 
估计 有 时 表现 不 理想 . 例如 ， 有 时 某 些 回归 系数 的 估计 的 绝对 值 异 常 大 ， 有 时 回归 
系数 的 估计 值 的 符号 与 问题 的 实际 意义 相 违背 等 . 研究 结果 表明 ,产生 这 些 问题 的 
原因 之 一 是 回归 自 变量 之 间 存在 着 近似 线性 关系 , 称 为 复 共 线性 (muiticolinearity). 
本 节 我 们 研究 复 共 线性 对 LS 估计 的 影响 以 及 复 共 线性 的 诊断 和 严重 程度 的 度量 
问题 . 

为 了 后 面 的 需要 ,我 们 先 引进 评价 一 个 估计 优 劣 的 标准 - 均 方 误差 (mean squared 
errors, 简 记 为 MSE), 并 讨论 它 的 一 些 性 质 . 

设 9 为 pxl 的 未 知 参数 向 量 ，6 为 9 的 一 个 估计 .定义 6 的 均 方 误差 为 

MSE(6) = 刀 I6 一 bl2 = E(6 — 9)'(6 一 9). 

它 度量 了 估计 6 与 未 知 参数 向 量 9 的 平均 偏离 的 大 小 ， 一 个 好 的 估计 应 该 有 较 小 
的 均 方 误差 . 

定理 6.6.1 

MSE(6) = trCov(6) + ||E6 — oll?, (6.6.1) 

这 里 tr(4) 表示 4 的 迹 . 

证 明 

MSE(6) = E(6 ~ 0)'(6 -0) 
= El(6 — E6) + (E6 — 0))I(6 — E6) + (E60)] 
= E(6— E6)'(6 — E6) + (E6 ~ 0)(E6 — 0) 


= Ai+ A2. 
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因为 对 任意 两 个 矩阵 Amxn 和 Bnxm, 有 tr4B = trB4, 于 是 上 式 第 一 项 
Al = Ptr(6- BE6)'(6- B6) = Etr(6 — E6)(6 — EO)’ 
= trB(6- B6)(6- BE6)' = trCov(6). 


而 第 二 项 Az = (B86 -by(B6 - 9) = ||E6 一 6Il?. 定理 证 毕 . 

从 定理 6.6.1 可 以 看 出 ，6 的 均 方 误差 可 以 分 解 为 两 项 之 和 ， 其 中 一 项 为 6 的 
各 分 量 的 方差 之 和 ， 另 一 项 为 6 的 各 分 量 的 偏差 的 平方 和 . 因此 ， 一 个 估计 的 均 方 
误差 就 是 由 它 的 各 分 量 的 方差 和 偏差 所 决定 ， 一 个 好 的 估计 应 该 有 较 小 的 方差 和 
偏差 . 

现在 我 们 用 均 方 误差 这 个 标准 来 评价 LS 估计 ， 考 虑 线性 回归 模型 


y=aol+ XA+e, Ele) = 0,Cov(e) = 027, (6.6.2) 


这 里 假定 nx (p 一 1) 的 设计 阵 X 已 经 中 心 化 和 标准 化 ， 且 rk(X) =p 一 1. 由 于 设 
计 阵 设计 阵 是 中 心 化 的 ， 于 是 常数 项 ao 和 回归 系数 B 的 LS 估计 能 够 分 离开 来 ， 


它们 分 别 为 。 
en | 
Go = 了 = 元 2 


B= (XX)-1X'y. 
把 ao 与 8 的 LS 估计 这 样 分 离开 来 ， 对 研究 回归 系数 的 LS 估计 的 改进 带 来 了 很 
大 的 方便 ， 下 面 我 们 只 讨论 回归 系数 8 的 LS 估计 的 改进 . 


因为 是 8 的 无 偏 估计 ， 于 是 在 MSE( 有 ) 的 表达 式 中 ， A。 = 0， 又 因为 
Cov(b = oa?(X'X)-1, 于 是 


MSE(B) = Al = o?tr(X'X)-!. (6.6.3) 


记 入 >…> Xp-1>0 为 XX 的 特征 值 因为 X'X 可 道 ， 所 以 (X'X)-1 的 特征 
值 为 MT，… AP, 故 上 式 变 为 


和 2 
MSE(P) =o? > 二 (6.6.4) 

人 
从 这 个 表达 式 我 们 可 以 看 出 ， 如 果 X'X 至 少 有 一 个 特征 值 非常 小 ， 既 非常 接近 于 
零 , 那么 MSE(D) 就 会 很 大 . 从 均 方 误差 的 标准 来 看 , 这 时 的 LS 估计 户 就 不 是 一 个 
好 的 估计 . 这 一 点 和 Gauss-Markov 定理 并 无 抵触 ， 因 为 我 们 知道 ， Gauss-Markov 
定理 仅仅 保证 了 LS 估计 在 线性 无 偏 估计 类 中 的 方差 最 小 性 ， 但 在 X'X 至 少 有 一 

个 特征 值 很 小 时 ， 这 个 最 小 的 方差 值 本 身 却 很 大 ， 因 而 导致 了 很 大 的 均 方 误差 . 


:180 六 章 线性 回归 模型 


另 一 方面 
MSE(6) = E(B — 8)'(B— 8)= E(B'B — 28'B+ 8'6)= EIBl? — B'p, 


于 是 过 
EIBI? = BI + MSE(B) =16P+c2 > 主 : (6.6.5) 
i 


这 就 是 说 ， 当 XX 至 少 有 一 个 特征 值 很 小 时 ， LS 估计 户 的 长 度 平均 说 来 要 
比 真正 的 未 知 向 量 8 的 长 度 长 得 多 ， 这 就 导致 的 某 些 分 量 的 绝对 值 太 大 . 

总 之 , 当 X'X 至 少 有 一 个 特征 值 很 小 时 ，LS 估计 局 就 不 再 是 一 个 好 的 估计 . 

下 面 我 们 进一步 分 析 ， X/X 至 少 有 一 个 特征 值 很 小 对 设计 阵 X 本 身 或 回归 
自 变量 关系 上 意味 着 什么 ? 

记 半 = (z(),…,z(p-y)), 即 zG) 为 设计 阵 久 的 第 i 列 . 设 入 为 X'X 的 一 个 
特征 值 ， v 为 其 对 应 的 特征 向 量 ， 其 长 度 为 1, 即 wp =1. 若 入 六 0, 则 

X'Xyp = MO 0. 
用 9w' 左 乘 上 式 ， 得 
wo'X'XP= Xeop= 入 0. 
于 是 ， 我 们 有 
Xp 0. 

若 记 p = (cl,…,cp-1)", 上 式 即 为 


C1T(1) + ***+ Cp-1T(p-1) ~ 0. (6.6.6) 


这 表明 设计 阵 X 的 列 向 量 z0),…,z(p-1) 之 间 有 近似 的 线性 关系 (6.6.6). 如 果 用 
X1,… .Xp-1 分 别 表示 p 一 1 个 回归 自 变量 ,那么 (6.6.6) 说 明 ， 从 现 有 的 n 组 数据 
看 ， 回 归 自 变量 之 间 有 近似 线性 关系 


CX1 + e+ epiXp-1 ~ 0. (6.6.7) 


回归 设计 阵 的 列 向 量 之 间 的 关系 (6.6.6) 或 等 价 地 回归 自 变量 之 间 的 关系 (6.6.7), 称 
为 复 共 线 关系 .相应 地 ， 称 设计 阵 X 或 线性 回归 模型 (6.6.2) 存在 复 共 线性 ， 有 时 
也 称 设计 阵 X 是 病态 的 (il-conditioned). 

从 上 面 的 讨论 我 们 知道 ，“X'X 的 特征 值 很 小 ”等 价 于 设计 阵 X 之 间 存在 复 
共 线 性 关系 ， 并且 X'X 有 几 个 特征 值 很 小 , 设计 阵 X 就 存在 几 个 复 共 线 关系 . 因 
此 ， 复 共 线 性 是 LS 估计 变 坏 的 原因 . 方 阵 X'X 的 条 件数 定义 为 


86.6 均 方 误差 及 复 共 线 性 ‘181- 


也 就 是 X'X 的 最 大 特征 值 与 最 小 特征 值 之 比 ， 直观 上 ， 条 件数 刻画 了 X'X 的 特 
征 值 的 散布 程度 ， 可 以 用 来 判断 复 共 线性 是 否 存在 以 及 复 共 线性 严重 程度 . 从 实际 
应 用 的 角度 ， 一 般若 上 < 100, 则 认为 复 共 线性 的 程度 很 小 ， 若 100 < k < 1000, 则 
认为 存在 中 等 程度 或 较 强 的 复 共 线性 ; 若 上 > 1000, 则 认为 存在 严重 的 复 共 线 性 . 
例 6.6.1 ”考虑 一 个 有 六 个 回归 自 变量 的 线性 回归 问题 ， 表 6.6.1 给 出 了 原始 
数据 . 
表 6.6.1 原始 数据 表 


数据 号 Y 和 Xa Xs Xs Xs Xe 
和 10.006 8.000 1.000 1.000 1.000 0.541 一 0.099 
2 9.737 8.000 1.000 1.000 0.000 0.130 0.070 
3 15.087 8.000 1.000 1.000 0.000 2.116 0.115 
4 80422 0.000 0.000 9.000 1.000 一 2.397 0.252 
5 8.625 0.000 0.000 9.000 1.000 一 0.046 0.017 
6 16.289 0.000 0.000 9.000 1.000 0.365 1.504 
Y 50958 2.000 7.000 0.000 1.000 1.996 一 0.865 
8 9.313 2.000 7.000 0.000 1.000 0.228 —0.055 
9 12.960 2.000 7.000 0.000 1.000 1.380 0.502 
10 5.541 0.000 0.000 0.000 10.000 —0.798 一 0.399 
11 8.756 0.000 0.000 0.000 10.000 0.257 0.101 
12 10.937 0.000 |. 0.000 0.000 10.000 0.440 0.432 


这 里 共有 12 组 数据 ， 除 第 一 组 外 ， 其 余 11 组 数据 满足 线性 关系 
Xi+ X2 + Xa3+ Xa = 10. (6.6.8) 
将 设计 阵 中 心 化 标准 化 ， 为 方便 计 ， 仍 用 Xi,…, Xe 表示 ,从 正 态 随机 数 表 随机 查 
出 的 12 个 数 e1,…,e12. 通过 理论 线性 回归 关系 
Y=10+2.0X1 +1.0X2 十 0.2Xs — 2.0X4 + 3.0X4 + 10.0X6 +e. (6.6.9) 
算出 对 应 的 因 变量 12 个 观测 值 ， 这 些 值 列 在 表 6.6.1 的 第 1 列 ， 对 于 模型 (6.6.9)， 
eb 
1.000 0.052 -0.343 -0.498 0.417 -0.192 
1.000 —0.432 -0.371 0.485 -0.317 
1.000 -0.355 一 0.505 0.494 
1.000 -0.215 一 0.087 
1.000 ”一 0.123 


1.0000 
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我 们 知道 ， 对 中 心 化 和 标准 化 的 设计 阵 XX, 若 把 回归 自 变量 视 为 随机 变量 ， 那 么 
X'X 就 是 回归 自 变量 的 相关 阵 ， 从 非 对 角 元 的 绝对 值 看 ， 任 两 个 回归 自 变量 之 间 
似乎 不 存在 较 严 重 的 线性 依赖 关系 ， 而 X'X 的 六 个 特征 值 分 别 为 


Al = 2.24879, M2 = 1.54615, 和 as = 0.92208, 
X4 = 0.79399, Xs = 0.30789, X46 = 0.00111, 


于 是 条 件数 为 
_ 和 A1 _ 2.24879 


Xe 0.00111 
这 个 条 件数 远 远大 于 1000. 根据 前 面 我 们 介绍 的 标准 ， 模 型 (6.69) 的 设计 阵 存在 
严重 的 复 共 线 性 . 因为 Xe = 0.00111 s 0, 算出 X'X 对 应 于 Xe 的 特征 向 量 为 


= 2025.94， 


¥' = (-0.44768, —0.42114, —0.54169, -0.57337，-0.00605，-0.00217). 
因而 回归 自 变量 之 间 有 如 下 复 共 线 关 系 
0.44768X1 十 0.42114X2 + 0.54169.X3 十 0.57337Xas 十 0.00605Xs 十 0.00217Xe 2 0. 


注意 到 ， Xs 和 Xe 的 系数 和 前 面 四 个 变量 的 系数 相 比 要 小 得 多 ， 可 以 将 其 略 去 ， 
得 到 
0.44768X1 + 0.42114X2 + 0.54169X3 + 0.57337Xa. (6.6.10) 


我 们 看 到 ， Xi,X2, Xs 和 X4 系数 很 接近 ， 于 是 这 个 复 共 线 关系 大 体 上 反映 了 原 
来 我 们 构造 数据 时 所 使 用 的 关系 (6.6.8)， 因 为 第 一 组 数据 并 不 满足 (6.6.8), 因此 
(6.6.10) 和 (6.6.8) 不 完全 相同 也 是 自然 的 . 

复 共 线性 产生 的 原因 是 多 方面 的 .一 种 是 由 于 数据 “收集 * 的 局 限 性 所 致 、 虽 
然 这 样 产生 的 复 共 线性 是 非 本 质 的 ， 原 则 上 可 以 通过 “收集 更 多 的 数据 来 解决， 
但 具体 实现 起 来 会 遇 到 许多 困难 . 例如 ， 在 一 些 问题 中 ， 由 于 试验 或 生产 过 程 已 经 
完结 或 经 费 限制 ， 不 可 能 在 产生 新 的 数据 . 另 一 方面 ， 对 一 些 情况 ， 虽 然 客 观 上 可 
以 “收集 ”更 多 的 数据 ， 但 对 于 多 于 三 个 自 变量 的 情况 ， 往 往 难于 确定 “收集 ” 怎 
样 的 数据 ， 才 能 “打破 ” 复 共 线性 ， 最 后 ， 即 便 收 集 了 一 些 新 的 数据 ， 但 为 了 打破 
复 共 线性 ， 这 些 数据 势必 要 远离 原来 的 数据 ， 可 能 产生 强 影响 点 ， 从 而 产生 新 间 题 
( 见 86.4)- 

另 一 种 产生 复 共 线性 的 重要 原因 是 , 自 变量 之 间 客 观 上 就 有 近似 的 线性 关系 . 
比如 ， 在 研究 农村 家 庭 用 电 问 题 中 ， 如 果 把 家 庭 收 入 zk 和 住房 面积 z2 都 看 作 自 
变量 ， 那 么 因为 家 庭 收 入 高 的 住房 也 相应 的 宽敞 一 些 ， 在 变量 z; 和 za 之 间 就 有 
复 共 线性 ， 一 般 说 来 ， 对 于 大 型 线性 回归 模型 问题 ， 也 就 是 回归 自 变量 个 数 p 一 1 
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比较 多 的 问题 ,由 于 人 们 往往 对 自 变量 之 间 的 关系 缺乏 认识 , 很 可 能 把 一 些 有 复 共 
线 关系 的 自 变量 引入 回归 方程 . 这 也 就 是 为 什么 在 大 型 回归 问题 中 ，LS 估计 的 性 
质 往往 不 理想 ， 甚 至 可 能 很 坏 的 一 个 原因 . 


86.7 有 偏 估 计 


从 上 节 的 讨论 我 们 知道 ， 当 设计 阵 存在 复 共 线 关系 时 ， LS 估计 的 性 质 不 够 理 
想 ， 有 时 甚至 很 坏 .为 此 ， 统 计 学 家 做 了 种 种 努力 ， 试 图 改进 最 小 二 估计 .这 种 努 
力 的 一 方面 是 从 模型 或 数据 角度 去 考虑 ， 前 面 所 讨论 的 变量 选择 和 回归 诊断 就 是 
这 方面 的 一 部 分 ,这 种 努力 的 另 一 个 重要 方面 就 是 寻求 一 些 新 的 估计 . Stein 于 
1955 年 证 明了 ， 当 维 数 大 于 2 时 ， 正 态 均值 向 量 的 LS 估计 的 不 可 容许 性 ， 即 能 够 
找到 另外 一 个 估计 在 某 种 意义 下 一 致 优 于 LS 估计 ， 有 些 文献 称 此 为 Stein 现象. 
以 此 为 开端 ， 近 30 年 来 ， 人 们 提出 了 许多 新 的 估计 ， 其 中 主要 有 上 岭 估计 ， 主 成 分 
估计 等 ， 从 某 种 意义 上 讲 ， 这 些 估计 都 改进 了 LS 估计 ， 因 这 些 估 计 有 一 个 共同 的 
特点 ， 它 们 的 均值 并 不 等 于 待 估 参 数 ， 于 是 人 们 把 这 些 估计 统称 为 有 偏 估计 .本 节 
的 目的 就 是 讨论 最 有 影响 且 得 到 广泛 应 用 的 两 种 有 偏 估 计 岭 估 计 和 主 成 分 估计 ， 


6.7.1 岭 估计 
对 于 线性 回归 模型 (6.6.2), 回归 系数 6 的 岭 估计 定义 为 
B(k) = (XXX + kD)-1X'y, (6.7.1) 


这 里 > 0 是 可 选择 参数 ， 称 为 岭 参数 或 偏 参数 . 如 果 大 取 与 实验 数据 y 无 关 的 党 
数 , 则 6(h) 为 线性 估计 , 不 然 的 话 ，B(k) 就 是 非 线性 估计 . 当 大 取 不 同 的 值 , 我 们 得 
到 不 同 的 估计 , 因此 岭 估计 B(k) 是 一 个 估计 类 . 特别 , 取 大 = 0, B(0) = (X'X)-1X'y 
是 通常 的 LS 估计 ， 于 是 严格 地 讲 ， LS 估计 是 岭 估计 类 中 的 一 个 估计 .但 是 一 般 
情况 下 ， 当 我 们 提起 岭 估计 时 ， 总 是 不 包括 LS 估计 ， 因 为 对 一 切 大 关 0 和 6 六 0， 
(8() = (X'X + RD)-1X'XB 关 ,因此 岭 估计 是 有 偏 估计 . 

与 LS 估计 启 相 比 , 岭 估计 是 把 X'X 换 成 了 X'X +kI 得 到 的 . 直观 上 看 这 样 
作 的 理由 也 是 明显 的 . 因为 当 X 呈 病 态 时 ， X'X 的 特征 值 至 少 有 一 个 非常 接近 
于 零 ， 而 X 环 + 的 特征 值 + 大 …，,Xp-1 十 大 接近 于 零 的 程度 就 会 得 到 改善 ， 
从 而 “打破 ”原来 设计 阵 的 复 共 线性 ， 使 岭 估计 比 LS 估计 有 较 小 的 均 方 误差 ， 即 
MSE(A(k)) < MSE(B). 下 面 我 们 将 证 明 使 这 个 不 等 式 成 立 的 是 存在 的 . 

为 了 证 明 关于 岭 估计 优良 性 的 一 个 基本 定理 ， 我 们 引进 线性 回归 模型 (6.6.2) 
的 典 则 形式 ， 设 和 ,… ,Xp-1 为 X'X 的 特征 值 ， 91,… ,pp_1 为 对 应 的 标准 正 交 
化 特征 向 量 ， 记 更 = (61,…,6p-1) , 则 更 为 (p 一 1) x (p 一 1) 标准 正 交 阵 ， 再 记 
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A = diag( 和 1,…, 和 p-1), 于 是 X'X = Ag'. 则 线性 回归 模型 (6.6.2) 可 改写 为 
y=Q0l+Zate, E(e) = 0, Cov(e) = o21, (6.7.2) 
这 里 Z = XE, a = /6. 我 们 称 (6.7.2) 为 线性 回归 模型 的 典 则 形式 ， a 称 为 典 则 


回归 系数 . 因为 X 是 中 心 化 的 ， 于 是 2 也 是 中 心 化 的 .对 典 则 形式 (6.6.2), ao 和 


a 的 LS 估计 分 曾 为 
Go=5 d=(22)-12'y. 


注意 到 2'Z = $B/'X'X® = A, 因而 

G@=A-!L2Z 

Cov(G) = o2A-12'ZA-1 = o2A-!L. 
按 定义 典 则 回归 系数 a 的 岭 估计 为 
A(k) = (22+kI)- Gy = (A+kI) ZYy. 
容易 证 明 
G = /AB, (6.7.3) 
A(k) = BB(K). (6.7.4) 


由 (6.7.3) 看 出 ， 典 则 回归 参数 a 的 LS 估计 与 原来 回归 参数 6 的 LS 估计 之 间 差 
一 个 标准 正 交 阵 ， 因 而 有 
MSE(G) = MSE(B)， (6.7.5) 


从 (6.7.4) 知 ， 类 似 的 结论 也 成 立 ， 即 
MSE(é(k)) = MSE(A(k)). (6.7.6) 
这 两 个 等 式 很 有 用 ， 它 对 证 明 岭 估计 的 优良 性 带 来 很 大 的 方便 . 


现在 我 们 证 明 岭 估计 的 优良 性 的 基本 定理 . 
定理 6.7.1 存在 上 >0, 使 得 


MSE(B(K)) < MSE(B). (6.7.7) 


即 存在 及 > 0, 使 得 在 均 方 误差 意义 下 ， 上 岭 估计 优 于 LS 估计 . 
证 明 ”由 (6.7.5) 和 (6.7.6) 知 ， 只 需 证 明 存在 上 > 0, 使 得 


MSE(&(k)) < MSE(a). (6.7.8) 
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因为 设计 阵 Z 是 中 心 化 的 ， 于 是 112 = 0. 所 以 
E(G(k)) = (A+kT)-12'(ao1+ Za) = (A+KT)-12'Za = (A+KT)-12'Aa 
应 用 定理 3.1.3, 有 
Cov(&(k)) = o2(A + kI) -12 2(A+ kIT) = (A+kI)-1A(A + kI)-!. 
再 依 定理 6.6.1, 得 到 
MSE(B(k)) = trCov(B(k) + IIE(B(k) — all? 


= 0 EE! pi + DE my 659 
= fi(k) + fo(k) = f(k), 


这 里 及 (k) 和 包 (k) 分 别 表示 (6.7.9) 的 第 一 项 和 第 二 项 ， 对 人 求 导 数 ， 得 


p-l 和 
fi(k) = 2 [ova (6:7.10) 
和 Aa? 
fi(k) = > 机 (6.7.11) 


因为 有 (0) < 0, 彤 (0) = 0, 所 以 (0) < 0. 显然 及 (k) 和 彤 (k) 在 大 > 0 时 都 连续 ， 
所 以 J(k) 在 大 > 0 时 也 连续 .因而 ， 当 大 > 0 且 充 分 小 时 1/(k) < 0, 这 就 是 说 ， 
f(k) = MSE(&(k)) 在 上 (> 0) 充分 小 时 ， 是 上 的 单调 函数 ， 因 而 存在 ki” > 0, 当 
有 E (0, k*) 时 ， 有 f(k) < f(0). 但 f(0) = MSE(&). 这 就 证 明了 (6.7.8). 定理 证 毕 . 

注 1 这 个 定理 为 岭 估计 的 实际 应 用 奠定 了 理论 基础 ， 具 有 重要 的 意义 ,但 
是 ， 从 理论 证 明 过 程 我 们 知道 ， 使 得 不 等 式 (6.7.7) 成 立 的 上 依赖 于 未 知 参数 6 和 
02, 因此 ， 对 固定 的 ,上 岭 估计 B(k) 不 是 在 整个 参数 空间 上 一 致 优 于 LS 估计 ， 事 
实 上 可 以 进一步 证 明 ， 它 只 能 对 相对 较 小 的 B 成 立 (关于 这 个 事实 的 证 明 可 参阅 
[4jp.294, 定理 2.2). 

注 2 A(k) = hkB, 这 里 hk = (X'X 十 kJ)-1X'X. 这 表明 岭 估计 是 LS 估计 
的 一 个 线性 变换 . 

注 3 对 任意 人 > 0 和 | 用 关 0, 总 有 


1B(D= ae) = (A+ DABI < lall = 18l， 


这 表明 ， 岭 佑 计 P(k) 的 长 度 总 比 LS 估计 的 长 度 小 . 因此 B(k) 是 对 上 向 原点 一 
种 压缩 ， 所 以 通常 也 称 之 为 一 种 压缩 估计 (shrinked estimate). 上 一 节 我 们 已 经 提 
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到 ， 当 设计 阵 X 呈 病 态 时 ， 平 均 说 来 LS 估计 偏 长 ， 对 它 作 适当 的 压缩 是 应 该 
的 .这 个 结果 从 一 个 侧面 说 明了 岭 估计 的 合理 性 

在 实际 应 用 中 ， 岭 参数 的 选择 是 一 个 很 重要 的 问题 . 定理 6.7.1 仅 说 明了 B(k) 
优 于 户 的 上 的 存在 性 ， 并 没有 给 出 具体 的 算法 .我 们 自然 希望 找到 使 MSE(B(k)) 
达到 最 小 值 的 k*. 从 (6.7.10) 和 (6.7.11) 容易 看 出 ， 这 个 最 优 值 k* 应 该 在 方程 


Ean a 
Fk) = FA + RR) =2 5 人 =0 (6.7.12) 
i=1 . 
的 根 中 去 找 ， 显然 的 最 优 值 k* 依赖 于 未 知 参数 8 和 o?, 从 而 不 可 能 通过 解 方程 
J(k) = 0 去 获得 ， 因 此， 统计 学 家 从 别 的 途径 提出 了 选择 的 许多 方法 .但 是 从 
计算 机 模拟 比较 的 结果 看 ， 在 这 些 方法 中 没有 一 个 方法 能 够 一 致 地 ( 即 对 一 切 参 数 
8 和 o?) 优 于 其 它 方法 .下 面 我 们 介绍 其 中 的 几 种 方法 . 
1. Hoerl-Kennard 公式 
岭 估计 是 由 Hoerl 和 Kennard 于 1970 年 提出 的 ， 他 们 所 用 的 选择 的 公式 是 
四 62 
站 = Ra (6.7.13) 
这 个 方法 是 基于 如 下 的 考虑 . 由 (6.7.12) 知 ， 如 果 ka? - o2 < 0, 对 i=1,.……,p 一 1 


都 成 立 ， 则 1'(k) < 0. 于 是 取 
0 


全 maxia?” 
当 0 < 上 < 如 时 ,1'(k) 总 是 小 于 0, 因 而 f(A) 总 是 上 的 单调 函数 , 故 有 f(k*) < f(0)， 
即 MSE(B(k)) < MSE(D). 在 (6.7.14) 中 ， 用 LS 估计 Gi 和 6? 代替 aa 和 o2, 便 得 
到 (6.7.13). 

2. 岭 迹 法 

岭 估计 PK) = (X'X +kI)-1X'y 是 随 大 值 改变 而 变化 . 车 记 启 (k) 为 Bk) 的 
第 i 个 分 量 ， 它 是 的 一 元 函数 ， 当 k 在 [0，+ce) 上 变化 时 ， 所 (k) 的 图 形 称 为 
岭 迹 。 选择 的 岭 迹 法 是 ， 将 房 (6)，…, 房 -i(h 的 岭 迹 画 在 同一 个 图 上 ， 根 据 崔 
迹 的 变化 趋势 选择 上 值 ， 使 得 各 个 回归 系数 的 岭 估计 大 体 上 稳定 ， 并 且 各 个 回归 
系数 的 岭 估计 值 的 符号 比较 合理 我 们 知道 ， LS 估计 是 使 残 差 平方 和 达到 最 小 的 
估计 大 愈 大 ， 岭 估计 与 LS 估计 偏离 愈 大 ， 因 此 ， 它 对 应 的 残 差 平方 和 也 随 着 大 
的 增加 而 增加 ， 当 我 们 用 岭 迹 法 选择 值 时 ， 还 应 考虑 使 得 残 差 平方 和 不 要 上 升 
太 多 .在 实际 处 理 上 ， 上 述 几 点 原则 有 时 可 能 会 有 些 互相 不 一 致 ， 顾此失彼 的 情况 
也 经 常 出 现 ， 这 就 要 根据 不 同情 况 灵活 处 理 . 


(6.7.14) 
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例 6.7.1 “外贸 数据 分 析 

我 们 所 考虑 的 因 变 量 Y 为 进口 总 额 ， 自 变量 Xi 为 国内 总 产值 ， X2 为 存储 
量 ， Xs 为 总 消费 量 . 为 了 建立 了 对 自 变量 Xi, Xz 和 Xs 之 间 的 依赖 关系 ， 收 集 
了 11 组 数据 ， 列 在 表 6.7.1. 


表 6.7.1 ”外贸 数据 


序号 国内 总 产值 (x1) 存储 量 (z2) 总 消费 量 (zs) 进口 总 额 (y) 
1 149.3 4.2 108.1 15.9 
时 161.2 4.1 114.8 16.4 
3 171.5 3.1 123.2 19.0 
4 175.5 3.1 126.9 19.1 
5 180.8 11 132.1 18.8 
6 190.7 2.2 137.7 20.4 
划 202.1 2 146.0 22.7 
8 212.4 5.6 154.1 26.5 
9 226.1 5.0 162.3 28.1 
10 231.9 5.1 164.3 27.6 
11 239.0 0.7 167.6 26.3 


将 原始 数据 中 心 化 和 标准 化 ， 计 算得 到 
1 0.026 0.997 
XX= | 0026 1 0.036 
0.997 0.036 1 
再 计算 出 它 的 三 个 特征 值 ， 分 别 为 Ni = 1.999, 和 2 = 0.998, Xs = 0.003. 于 是 X'X 的 


条 件数 和 /Xs = 666.333, 可 见 设计 阵 存在 中 等 程度 的 复 共 线 性 . Xs 对 应 的 特征 向 
量 为 
$s = (-0.7070， 一 0.0070，0.7072). 
由 上 一 节 的 讨论 知 ， 三 个 自 变 量 之 间 存 在 复 共 线 关系 
—0.7070X1 — 0.0070X + 0.7072Xs ~ 0. 


注意 到 ， 自 变量 X 的 系数 绝对 值 相对 非常 小 ， 可 视 为 零 ， 而 Xi 和 Xs 的 系数 又 
近似 相等 ， 因 此 自 变量 之 间 的 复 共 线 关系 可 近似 地 写 为 Xi = Xs. 注意 这 里 的 2 


和 Xs 都 是 经 过 中 心 化 和 标准 化 的 变量 ， 还 原 为 原来 的 变量 ， 近 似 复 共 线 关系 为 
A Xs 
sl 53 


从 表 6.7.1 可 以 算出 


11 1/2? 
元 = 194.59， #1= (Be 一 a = 94.87, 


ft 
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11 1/2 
元 3 = 139.74， si1= ( D(z — a = 65.25. 
i=1 


代入 上 式 得 
Xs = 5.905 + 0.688X1. (6.7.15) 
这 就 是 总 消费 量 和 国内 总 产值 之 间 的 一 个 线性 依赖 关系 ， 因 为 X 是 中 心 化 和 标准 
化 的 ,于 是 X'X 是 相关 阵 ， 其 中 0.997 正 是 X, 的 Xs 相关 系数 . 可 见 ， Xi 与 XX 
有 如 此 大 的 相关 系数 ， 和 我 们 找 出 它们 之 间 的 复 共 线 关系 (6.7.15) 这 一 事实 是 吻合 
的 .既然 自 变量 之 间 存在 中 等 程度 的 复 共 线性 ， 我 们 就 采用 岭 估计 来 估计 回归 系 
数 .对 于 中 心 化 和 标准 化 的 变量 ， 计 算出 的 岭 迹 列 在 表 6.7.2, 对 应 的 岭 迹 图 画 在 图 
6.7.1. 表 6.7.2 的 最 后 一 列 是 岭 估计 对 应 的 残 差 平方 和 . 我 们 看 到 , 随 着 上 的 增加 ， 


BW 
1.2F 
1.0r 
0.8 上 
0.6 上 
hb 
be A A 
ir , 一 一 hw 
1 
0 于 上 | 1 上 二 1 1 
/ 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 大 
-02F 
-04F 


图 6.7.1 外 贸 数据 回归 的 岭 迹 


岭 估计 的 残 差 平方 和 也 随 之 增加 ， 所 以 残 差 平方 和 是 岭 参 数 的 单调 增 函 数 ， 这 
是 很 自然 的 ， 因 为 LS 估计 是 使 残 差 平方 和 达到 最 小 的 估计 ， 随 着 的 增加 ， 岭 估 
计 与 LS 估计 的 偏离 就 愈 大 ， 因 此 它 的 残 差 平方 和 自然 也 就 请 大 .从 岭 迹 图 上 可 以 
看 出 ， 岭 迹 房 随 着 的 增加 ， 很 快 增加 ， 大 约 在 = 0.01 处 从 负 值 变 为 正 值 ， 而 
房 相对 比较 稳定 , 但 房 随 着 k 的 增加 ， 又 然 减少 ， 大 约 在 k = 0.04 以 后 就 稳定 下 
来 . 总 体 来 看 ， 我 们 可 以 取 大 = 0.04, 对 应 的 岭 估计 为 


Bi(0.04) = 0.420, Ba(0.04) = 0.213, Bs(0.04) = 0.525. 


各 变量 的 平均 值 为 
£1 = 194.59，52 = 3.30, £3 = 139.74,， 了 一 21.89. 
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表 6.7.2 ”外贸 数 据 的 岭 回归 
大 房 ( 且 (A) Ba(k) RSS 
0.000 -0.339 0.213 1.303 1.673 
0.001 -0.117 0.215 1.080 1.728 
0.002 0.010 0.216 0.952 1.809 
0.003 0.092 0.217 0.870 1.881 
0.004 0.150 0.217 0.811 1.941 
0.005 0.193 0.217 0.768 1.990 
0.006 0.225 0.217 0.735 2.031 
0.007 0.251 0.217 0.709 2.066 
0.008 0.272 0.217 0.687 2.095 
0.009 0.290 0.217 0.669 2.120 
0.010 0.304 0.217 0.654 2.142 
0.020 0.379 0.216 0.575 2.276 
0.030 0.406 0.214 0.543 2.352 
0.040 0.420 0.213 0.525 2.416 
0.050 0.427 0.211 0.513 2.480 
0.060 0.432 0.209 0.504 2.548 
0.070 0.434 0.207 0.497 2.623 
0.080 0.436 0.206 0.491 2.705 
0.090 0.436 0.204 0.486 2.794 
0.100 0.436 0.202 0.481 2.890 
0.200 0.426 0.186 0.450 4.236 
0.300 0.411 0.173 0.427 6.155 
0.400 0.396 0.161 0.408 8.489 
0.500 0.381 0.151 0.391 11.117 
0.600 0.367 0.142 0.376 13.947 
0.700 0.354 0.135 0.361 16.911 
0.800 0.342 0.128 0.348 19.957 
0.900 0.330 0.121 0.336 23.047 
1.000 0.319 0.115 0.325 26.149 


$1 = 94.87, s2 = 5.22, s3 = 65.26, sy = 14.37. 
代入 经 验 回归 方程 ， 化 简 后 得 到 如 下 岭 回 归 方程 
Y = -8.5537 + 0.0635X' + 0.5859X2 + 0.1156Xs- 


需要 说 明 的 是 ， 大 量 的 计算 机 模拟 结果 都 表明 ， 当 X 呈 病 态 时 ， 前 面 两 种 确 

定 岭 参数 上 的 方法 对 降低 均 方 误差 都 有 一 定 的 作用 ， 但 我 们 不 能 从 理论 上 保证 它 
们 所 给 出 的 岭 估计 比 LS 估计 有 较 小 的 均 方 误差 .。 Vinod 和 Ullahlio 给 出 了 一 种 
确定 岭 参数 的 方法 ， 称 为 “ 双 hh 公式". 从 理论 上 可 以 证 明 ，, 对 一 切 8 和 o2, 由 
“ 双 h 公式 ”确定 的 岭 估计 比 LS 估计 有 较 小 的 均 方 误差 (关于 这 部 分 内 容 的 详细 


讨论 可 参阅 文献 [4], p.303). 
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岭 估计 的 一 种 推广 形式 ， 称 为 广义 岭 估计 .对 于 线性 回归 模型 (6.6.2), 回归 系 
数 有 的 广义 岭 估 计 定 义 为 


B(K)= (X'X + EKE)-1X'y, 


这 里 于 的 定义 同上 文 ， 即 更 为 标准 正 交 阵 ， 使 得 ®'X'X® = diag( 和 1,… ,Ap-1) ， 
天 = diag(k1,-…,kp_1). 可 以 证 明 ， 存 在 K 使 得 广义 岭 估 计 比 LS 估计 有 较 小 均 方 
误差 . 且 从 理论 上 说 ， 广 义 岭 估计 能 够 比 岭 估计 达到 更 低 的 均 方 误 差 ， 因 为 诸 访 
不 必 全 相等 . 

6.7.2” 主 成 分 估计 


在 研究 岭 估计 的 优良 性 时 ,给 出 了 一 般 线性 回归 模型 (6.6.2) 的 典 则 形式 (6.7.2). 
在 模型 (6.7.2) 中 ， 新 的 设计 阵 2 = (z0)，……,ztp-D) = (X91,…,X#p-1), 即 


201) = Xp Zp-1) = Xbp-1. (6.7.16) 


于 是 Z 的 第 i 列 6) 是 原来 p -1 个 回归 自 变量 的 线性 组 合 ， 其 组 合 系数 为 X'X 
的 第 i 个 特征 值 对 应 的 特征 向 量 pi. 因此 ，Z 的 p 一 1 个 列 就 对 应 于 p 一 1 个 以 原 
来 变量 的 特殊 线性 组 合 ( 即 以 X'X 的 特征 向 量 为 组 合 系数 ) 构成 的 新 变量 . 在 多 元 
统计 学 中 ， 称 这 些 新 变量 为 主 成 分 ， 排 在 第 一 列 的 新 变量 对 应 于 X'X 的 最 大 特征 
值 ， 称 为 第 一 主 成 分 ， 排 在 第 二 列 的 就 成 为 第 二 主 成 分 ， 依 此 类 推 ， 因 为 X 是 中 
心 化 的 ， 即 工 X = 0, 于 是 12 = 1X 重 =0. 所 以 2 也 是 中 心 化 的 . 因而 2 的 各 列 
元 的 平均 值 为 
i (6.7.17) 
依 (6.7.16) 可 得 
2(020) = GX XGi = 和 (6.7.18) 


结合 (6.7.17) 知 
D5) = = Mj = bp 1. 
气 


于 是 X'X 的 第 i 个 特征 值 Xi 就 度量 了 第 i 个 主 成 分 取 值 变动 大 小 ， 当 设计 阵 X 
存在 复 共 线 关系 时 ， 有 一 些 X'X 的 特征 值 很 小 ， 不 妨 假设 入 41,… ,Xp_1 sx 0. 这 
时 后 面 的 p 一 "一 1 个 主 成 分 取 值 变动 就 很 小 ， 再 结合 (6.7.17)( 即 它们 的 均值 都 为 
零 ), 因而 这 些 主 成 分 取 值 近似 为 零 . 因此 ， 在 用 主 成 分 作为 新 的 回归 自 变量 时 ， 这 
后 面 的 2 一 "一 1 个 主 成 分 对 应 变量 的 影响 就 可 以 忽略 掉 ， 故 可 将 他 们 从 回归 模型 
中 吻 除 . 用 最 小 二 乘法 做 剩 下 的 个 主 成 分 的 回归 ,然后 再 变 回 到 原来 的 自 变量 
就 得 到 了 主 成 分 回归 |. 
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现在 将 上 述 思想 具体 化 . 记 A = diag( 和 1,…, 和 Xp-1). 对 A,a,Z 和 更 做 分 块 : 


I 兽 i ,2 = (21: 22), ® = ($1 : $2), 
0 A aa2 


其 中 Al 为 rxr 矩阵，a 为 r x1 向量，21 为 nxr 扼 阵 ，@1 为 (p-1xr 和 矩 
阵 ， 将 这 些 分 块 矩 阵 代 入 (6.7.2) 并 剔除 Zaas 项 得 到 回归 模型 


y=a0l+Zia1+e, E(e)=0, Cov(e)= 0o?1, (6.7.19) 


这 个 新 的 回归 模型 就 是 在 噜 除了 后 面 p-r 一 1 个 对 应 变量 影响 较 小 的 主 成 分 后 得 到 
的 . 因此 , 事实 上 我 们 是 利用 主 成 分 进行 了 一 次 回归 自 变量 的 选择 . 对 模型 (6.7.19) 
应 用 最 小 二 乘法 ， 得 到 ao 和 a 的 LS 估计 ， 
Go = 了 一 ZE 
al = (2121) 121y = AT!2!y. 

前 面 我 们 从 模型 中 剔除 了 后 面 p -~ 一 1 个 主 成 分 ， 这 相当 于 用 aa = 0 去 估计 az， 
利用 关系 8 = $a, 可 以 获得 原来 参数 8 的 估计 

Ga Ga 

B= ( ) = ($1, $2) ( ) = DAT Zly = BA BIXYy, (6.7.20) 

Go 0 

这 就 是 的 主 成 分 估计 . 

因为 根据 (6.7.20) 式 有 


E(B) = (&1, 2) ( - | = a, 
0 


但 
B= $a = Siai + 2a2, 
可 见 ， 一 般 说 来 E(B) 关 6, 于 是 主 成 分 估计 也 是 有 偏 估计 ， 对 于 有 偏 估计 ， 我 们 应 
该 用 均 方 误差 作为 度量 其 优 劣 的 标准 . 下 面 的 定理 证 明了 , 在 一 定 的 条 件 下 主 成 分 
估计 比 LS 估计 有 较 小 均 方 误差. 
定理 6.7.2 ” 当 设计 阵 存在 复 共 线 关系 时 , 适当 选择 保留 的 主 成 分 个 数 可 致 主 
成 分 估计 比 LS 估计 有 较 小 的 均 方 误差 ， 即 


MSE(B) < MSE(P). 
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证 明 ”利用 前 面 的 记号 ,假设 X'X 的 后 面 p 一 7 一 1 个 特征 值 x+1t ,和 p-1 
很 接近 于 零 ， 根 据 定理 6.6.1 和 (6.7.20) 式 ， 有 


的 ) 的 的 )- 
0 0 0 


2 
= cztr(AiD+|lazl2. 


因为 
MSE(P) = oa?tr(A-!), 
所 以 
MSE(P) = MSE(P) + (llazl? — o?trA31). 
于 是 
MSE(B) < MSE(D) 
当 且 仅 当 
Ee 
lasll? < otrAz! = o2 > 六. (6.7.21) 


因为 我 们 假定 X'X 的 后 面 p 一 > - 1 个 特征 值 接近 于 零 ， 于 是 上 式 右 端 很 大 ， 故 不 
等 式 (6.7.21) 成 立 ， 定 理 得 证 . 

注 ”因为 oa = 柄 6, 于 是 变 回 到 原来 参数 ， (6.7.21) 可 变形 为 

(aa(9) <trAz!. (6.7.22) 

这 就 是 说 ， 仅 当 6 和 o? 满足 (6.7.22) 时 ， 主 成 分 估计 才能 比 LS 估计 有 较 小 的 均 
方 误差 ， (6.7.22) 表示 了 参数 空间 中 ( 视 8/o 为 参数 ) 一 个 中 心 在 原点 的 椭 球 ， 于 
是 从 (6.7.22) 我 们 可 以 得 到 如 下 的 结论 ， 

(1) 对 固定 的 参数 8 和 o?, 当 X'X 的 后 面 p - r -~ 1 个 特征 值 很 小 时 ， 主 成 分 
估计 比 LS 估计 有 较 小 的 均 方 误差 . 

(2) 对 给 定 的 X'X, 也 就 是 固定 的 A2, 对 相对 比较 小 的 B/c, 主 成 分 估计 比 LS 
估计 有 较 小 的 均 方 误差 

在 主 成 分 估计 应 用 中 ， 有 一 个 重要 的 问题 就 是 如 何 选 择 保留 主 成 分 个 数 . 通常 
有 两 种 方法 ， 其 一 是 保留 对 应 的 特征 值 相对 比较 大 的 那些 主 成 分 ， 其 二 是 选择 7， 
使 得 学 ;_1 和 i 与 全 部 p 一 1 个 特征 值 之 和 ?2i Xi 的 比值 ( 称 这 个 比值 为 前 个 主 
成 分 的 贡献 率 ) 达到 预先 给 定 的 值 ， 辟 如 75% 或 80% 等 . 

需要 说 明 一 点 ， 主 成 分 作为 原来 变量 的 线性 组 合 , 是 一 种 “人 造 变 量 "， 一 般 并 
不 具有 任何 实际 含义 ,特别 当 回归 自 变量 具有 不 同 度量 单位 时 , 更 是 如 此 . 例如 在 
研究 农作物 产量 与 气候 条 件 ， 生 产 条 件 的 关系 问题 中 ， 假 定 Xi 和 X, 分 别 表示 该 
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农作物 生长 期 内 平均 气温 和 降雨 量 ， 它 们 的 度量 单位 分 别 是 摄氏 度 和 毫米 ， 而 Xo 
表示 单位 面积 上 化 学 肥料 的 施用 量 , 单位 是 公斤 . 这 时 主 成 分 作为 这 些 变量 的 线性 
组 合 ,它们 的 单位 就 什么 也 不 是 了 ,更 谈 不 上 其 实际 意义 . 当然 也 存在 一 些 实际 问 
题 ， 自 变量 都 是 同一 类 型 的 物理 量 ,它们 具有 相同 的 度量 单位 ,并 且 它 们 的 主 成 分 
具有 十 分 明显 的 实际 解释 . 

例 6.7.2 ( 续 例 6.7.1) ”外 贸 数据 分 析 问 题 

在 例 6.7.1 中 ， 我 们 已 经 对 这 批 数据 作 了 统计 分 析 ， 并 且 求 出 了 回归 系数 的 岭 
估计 ， 现 在 我 们 来 求 它 的 主 成 分 估计 . X'X 的 三 个 特征 值 分 别 为 


和 1 = 1.999，》a = 0.998，》s = 0.003. 
它们 对 应 的 三 个 标准 正 交 化 特征 向 量 分 别 为 
和 =(0.7063 0.043 0.7065)， 


和 =(-0.0357 0.9990  —0.0258), 
=(~-0.7070 ”一 0.0070 0.7072). 


三 个 主 成 分 分 别 为 


1 = 0.7063X1 + 0.0435X2 十 0.7065Xa， 
#2 = -0.0357X + 0.9990X2 一 0.0258Xa， 
23 = -0.7070X ~ 0.0070X + 0.7072 Xs. 
注意 这 里 XX, Xo 和 Xs 是 中 心 化 和 标准 化 后 的 变量 ， 因 为 Xs ~ 0 , 且 前 两 个 主 成 
分 的 贡献 率 
D1/ Dj = 0.999 = 99.9%. 
i=1 


i=1 
因此 ， 我 们 剔除 第 三 个 主 成 分 只 保留 前 两 个 主 成 分 ， 它 们 的 回归 系数 的 LS 估计 
分 别 为 &1 = 0.690, &2 = 0.1913. 还 原 到 原来 变量 ， 得 到 经 验 回归 方程 


Y= 一 9.1057 + 0.0727X1 十 0.6091X2 十 0.1062X3. 


表 6.7.3 给 出 了 主 成 分 估计 ， 岭 估计 和 LS 估计 ， 总 的 来 讲 ， 主 成 分 估计 和 上 岭 估计 
比较 相近 ， 而 与 LS 估计 相 比 ， 复 共 线 关系 (6.7.15) 所 包含 的 XK 和 Xs 的 回归 系 
数 变 化 较 大 ， 并 且 X 的 回归 系数 的 符号 也 发 生 了 变化 . 
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表 6.7.3 ”外 贸 数 据 分 析 问 题 的 三 种 估计 
变量 常数 项 z1 z2 za 
主 成 分 估计 (r=2) 一 9.1057 0.0727 0.6091 0.1062 


LS 估计 0.5869 0.2868 
岭 估计 (k=0.04) 


—10.1300 


习题 六 


6.1 设 有 四 个 物体 ， 在 一 个 化 学 天 平 上 称 重 ， 方 法 是 这 样 的 ， 在 天 平 的 两 个 秤 盘 上 分 别 放 
上 这 四 个 物体 中 的 几 个 物体 ， 并 在 其 中 的 一 个 秤 盘 上 加 上 硅 码 使 之 达到 平衡 : 这样 便 有 一 个 线 
性 回归 模型 
Y = aaXal 十 azXa + asXs 十 adXa 十 6 


其 中 Y 为 使 天 平 达到 平衡 所 和 需 的 硅 码 的 重量 .我 们 约定 ， 如 果 硅 码 放 在 左边 秤 盘 上 ， 则 Y 应 为 
负 值 ， Xt 的 值 为 0, 1 或 -1. 0 表示 在 这 次 称 重 时 ， 第 i 个 物体 没有 被 称 ， 1 和 一 1 分 别 表示 
该 物体 放 在 左边 和 右边 的 秤 盘 上 . 回归 系数 as 就 是 第 i 个 物体 的 重量 ,我 们 总 共 称 了 四 次 ， 其 
结果 如 下 表 : 


(1) 试用 线性 回归 模型 表示 这 些 称 重 数据 ; 

(2) 验证 设计 算 阵 X 满足 X'X = 414, 并 计算 物体 重量 os 的 最 小 二 乘 估计 Gi; 

(3) 假设 模型 误差 的 方差 为 o?, 证 明 Var(Gi) = o?/4; 

(4) 如 果 这 些 物体 是 用 例 4.1.1 的 方法 分 别称 重 ， os 的 估计 要 达到 这 样 的 精度 ， Var(Gs) = 
o /4, 需要 称 多 少 次 ? 

6.2 设 y=XB+e,(e) = 0, Cov(e) = c21, X 是 mxP 列 满 秩 设计 和 矩阵， 将 X,，B 分 


块 为 
xp= x | |. 
应 


(1) 证 明 友 的 最 小 二 乘 估计 扇 由 下 式 给 出 ， 


Ba = [XsX2 ~ XIX XIXI) XIX] [XYy — XEX XLXI) XL]; 
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(2) 求 Cov(B) 

6.3 ”对 正 态 线性 回归 模型 y = fol 十 XB+e, e ~ N(0, c?7), 其 中 X 为 nx 人 Op 一 1) 抵 
阵 ， 试 导出 假设 

Hi B= =PBpi=0, 

Ha: Bi = = po- 

Ha: Bi+:*-+Bp-i=e 
的 下 统计 量 ， 这 里 < 为 给 定 的 常数 . 

6.4 设 和 为 o2 在 选 模型 (6.3.2) 下 的 最 小 二 乘 估计 ， 假 设 全 模型 (6.3.1) 正确 ， 试 求 
(53)， 并 问 此 结果 说 明了 什么 ? 

6.5 ”对 于 线性 回归 模型 y = XB + e, 假设 X 的 第 一 列 的 元 全 为 1, 证 明 ， 

(1) Pily 一 加 =0， 

(2) i (yi 一 四 一 0， 
其 中 辫 是 拟 合 值 向 最少 = X 户 的 第 i 个 分 最. 

6.6 ”对 某 地 区 18 年 某 种 消费 品 销售 情况 数据 ( 见 下 表 ), 试用 RMS。 Cs 和 AIC 准则 ， 建 
立 子 集 回归 模型 . 

4 消费 品 的 销售 额 ( 百 万 元 )， 

zl 居民 可 支配 收入 (元 )， 

z2: 该 类 消费 品 的 价格 指数 (%)， 

zst 其 它 消费 品 平均 价格 指数 (%). 

某 地 18 年 某 种 消费 品 销售 数据 


y zl x2 z3 
7.8 81.2 85.0 87.0 
8.4 82.9 92.0 94.0 
8.7 83.2 91.5 95.0 
9.0 85.9 92.9 95.5 
9.6 88.0 93.0 96.0 
10.3 99.0 96.0 97.0 
10.6 102.0 95.0 97.5 
10.9 105.3 95.6 98.0 
11.3 117.7 98.9 101.2 
12.3 126.4 101.5 102.5 
13.5 131.2 102.0 104.0 
14.2 148.0 105.0 105.9 
14.9 153.0 106.0 109.5 
15.9 161.0 109.0 111.0 
18.5 170.0 112.0 110.0 
19.5 174.0 112.5 112.0 
19.9 185.0 113.0 112.3 
20.5 189.0 114.0 113.0 
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6.7 在 林业 工程 中 ,研究 树干 的 体积 Y 与 离 地 面 一 定 高 度 的 树干 直径 X 和 树干 高 度 X2 
之 间 的 关系 具有 重要 的 实用 意义 ， 因 为 这 种 关系 使 我 们 能 够 用 简单 的 方法 从 Xi 和 X2 的 值 去 
估计 一 标 树 的 体积 ， 进 而 估计 一 片 森林 的 木材 储量 .下 表 是 一 组 观测 数据 ; 


Xl Xa2 ¥ X1 X2 b 
8.3 70 10.3 12.9 85 33.8 
8.6 65 10.3 13.3 86 27.4 
8.8 63 10.2 13.7 71 25.7 
10.5 72 16.4 13.8 64 24.9 
10.7 81 18.8 14.0 78 34.5 
10.8 83 19.7 14.2 80 31.7 
11.0 66 15.6 14.5 74 36.3 
11.0 75 18.2 13.0 72 38.3 
4 80 22.6 16.3 77 42.6 
11.2 75 19.9 17.3 81 55.4 
11.3 79 24.2 17.5 82 55.7 
11.4 76 21.0 17.9 80 58.3 
11.4 ?76 21.4 18.0 80 51.5 
11.7 69 21.3 18.0 80 51.0 
12.0 75 19.1 20.6 87 77.0 
12.0 74 22.2 
试用 计算 机 完成 下 面 的 统计 分 析 ， 


(1) 假设 了 与 Xi 和 Xs 有 如 下 线性 回归 关系 。 Y= ac 十 BiXz + DBXa +e, 做 最 小 二 乘 
分 析 ， 并 做 相应 的 残 差 图 ， 试 计算 Box-Cox 变换 参数 和 的 值 . 

(2) 对 (1) 中 计算 出 的 变换 参数 A 值 ， 做 相应 的 Box-Cox 变换 ， 并 对 变换 后 的 因 变量 做 对 
Xi 和 .Xs 的 最 小 二 乘 回归 ， 并 做 残 差 图 . 

6.8 证 明定 理 6.4.1. 

6.9 对 正 态 线性 回归 模型 y = XB+e，e~ N(0, o?7), 设 户 = Ay 为 8 的 一 个 线性 估计 

(1) 证 明 使 均 方 误差 矩阵 MSEM(D) = B(B-B)(B--B) 达到 极 小 的 A* = BB'X'(XBB'X'+ 
二 

(2) 证 明 

BX'y 有 
05 十 序 X'X5 
注 ， 若 用 最 小 二 乘 估计 B, 52 代 夫 B, o?, 便 得 到 B 的 非 线性 估计 

Bxy ;3 
62+PXXB 


B=A'y= 


B= 


6.10 对 于 86.7 引进 的 回归 系数 岭 估计 的 推广 形式 : 广义 岭 估计 BP(K) = (X'X+BK® -1Xy， 
试 证 明 存在 K = diag(k1,.…, kp-1) > 0, 使 得 MSE(B(K)) < MSE(B), 这 里 为 8 的 最 小 二 
乘 估计 . 
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6.11 做 了 10 次 试验 得 观测 数据 如 下 : 


y 16.3 16.8 19.2 18.0 19.5 209 211 20.9 20.3 22.0 


XL 10 14 17 18 18 19 2.0 2.3 2.4 
X2 11 1.5 1.8 1.9 1.8 1.8 2.1 2.4 2.5 


(1) 若 以 Xi, Xz 为 回归 自 变量 ， 问 它们 之 间 是 否 存在 复 共 线 关系 ? 

(2) 试用 岭 迹 法 求 y 关于 X1, Xz 的 岭 回 归 方 程 ， 并 画 出 岭 迹 图 . 

6.12 ”对 某 种 商品 的 销售 量 Y 进行 调查 ， 并 考虑 有 关 的 四 个 因素 : Xi: 居民 可 支配 收入 ， 
Xz: 该 商品 的 平均 价格 指数 ，Xs: 该 商品 的 社会 拥有 量 ，Xa: 其 它 消费 品 平均 价格 指数 ， 下 面 
是 调查 数据 ， 


利用 主 成 分 方法 建立 Y 与 Xi, Xz, Xs, Xs 的 回归 方程. 
6.13 ”考虑 正 态 线性 回归 模型 


y=XB+e, e~ Nn(0，o21). 
记 语 = (XX) xX'y, 0° = ly XA. 
(DD) 求 Var(52); 
(2) 设 A4= 二 二 (I 一 XX+), 计算 E(y Ay 一 02)?; 
(3) 证 明 y 4y 作为 o? 的 一 个 估计 ， 比 6? 具有 较 小 的 均 方 误差 ， 即 有 E(y'Ay -- 2)2 < 


(62 一 aa)2. 
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从 第 一 章 我 们 知道 , 方差 分 析 模型 是 应 用 非常 广泛 的 一 类 线性 模型 . 这 种 模型 
多 有 一 定 的 试验 设计 背景 , 因而 也 称 试验 设计 模型 . 对 于 这 种 模型 有 两 种 不 同 的 统 
计 分 析 方 法 .第 一 种 方法 是 将 数据 总 变 差 平方 和 按 其 来 源 (各 种 因子 和 随机 误差 ) 
进行 分 解 ,得 到 各 因子 平方 和 及 误差 平方 和 . 接 下 来 的 统计 分 析 是 基于 各 因子 平方 
和 与 误差 平方 和 大 小 的 比较 , 这 种 方法 叫做 平方 和 分 解法 . 这 种 方法 需要 的 预备 知 
识 较 少 ,一 般 在 一 些 初等 统计 书 中 都 采用 此 方法 . 第 二 种 方法 是 ， 既然 方差 分 析 模 
型 是 一 类 线性 模型 ， 我 们 就 可 以 把 前 面 讨论 的 一 般 线性 模型 的 估计 与 检验 的 结果 
应 用 于 这 种 模型 . 因为 这 种 方法 与 上 章 线性 回归 模型 大 同 小 异 , 因此 被 冠 以 回归 分 
析 法 之 名 ,此 法 对 各 种 方差 分 析 模型 都 采用 统一 处 理 模式 ,叙述 简洁 ， 重 点 突出 . 
本 章 将 采用 后 者 . 
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在 第 一 章 我 们 已 经 用 实例 引进 了 这 种 模型 ， 一 般 ， 设 因子 4 有 a 个 水 平 ， 分 
别 记 为 4, A2,… ,4。, 且 在 水 平 4; 下 作 ni(i = 1,2,…,a,) 次 重复 观测 ， 记 wij 为 
在 第 i 个 水 平 4 下 第 了 次 的 观测 值 ， 即 有 模型 


Yij = H+ oi + eiy, i=b2,,a, j=1,2,.. ,ni (7.1.1) 


这 里 p 为 总 平均 ， ef 表示 随机 误差 ， 且 假定 ei; ~ N(0,0?), 诸 es; 都 相互 独立 ， 
a 为 第 i 个 水 平 的 效应 .不 失 一 般 性 ， 我 们 常 假设 


a 
Dniai =0. (7.1.2) 
er 


此 因 若 志 #-imaiai = 4a 关 0, 则 用 pr =4+d/N 和 a? = ai-d/N 分 别 代替 六 和 
os 这 里 N = Zni, 得 到 新 模型 yj = J* +a? + esj, 满足 -ima? = 0. 有 些 
文献 称 (7.1.2) 为 边界 条 件 ， 我 们 也 采用 这 个 术语 ， 对 模型 (7.1.1), 车 nl = ns = 
… 三 na, 则 称 模型 为 平衡 的 ， 否 则 ， 称 为 非 平衡 的 对 平衡 的 模型 ， 边界 条 件 变 为 
二:iai = 0. 若 记 了 = (nn 
(olaa , Ga),e’ = (el1, 612, einiye2l 01, e2n2 yealea2 ean,), 则 模型 


(7.1.1) 的 设计 阵 为 
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ln ln 0 0 
1 0 i … 0 

Ws > :由 (7.1.3) 
Ys 和 0 1n。 


于 是 ， 单 向 分 类 模型 (7.1.1) 表示 成 了 线性 模型 的 一 般 形式 y = XB + e. 对 这 个 模 
型 ， 和 上 一 章 不 同 的 是 ， 设 计 阵 X 是 列 降 秩 的 ， 即 秩 小 于 它 的 列 数 . 


7.1.1 参数 估计 
对 于 单 向 分 类 模型 (7.1.1), 其 正则 方程 XXB = X'y 为 


Na+y niat = y., (7.1.4) 
i=l 


mpt+nmias = 3， t= (7.1.5) 


其 中 = ;Vis Vi = 忆 ; Yij， NN = 学 imi. 由 于 设计 阵 的 秩 水 (XX) = a, 于 
是 XX 是 列 降 秩 的 ， 即 秩 小 于 列 数 . 这 还 可 以 从 正则 方程 (7.1.4) 、(7.1.5) 看 出 . 因 
为 将 (7.1.5) 的 a 个 方程 相 加 即 得 (7.1.3), 而 (7.1.5) 的 a 个 方程 又 相互 独立 ， 从 第 
四 章 知 ， 对 任 一 cE M(X'), 线性 函数 cB 是 可 估 函 数 ， 且 cB 是 8 的 LSE, 其 中 
让 = (XX)-X'y 是 任 一 LS 解 ( 即 正则 方程 的 解 ). 即 对 可 估 函 数 而 言 ， 它 的 LS 估 
计 不 依赖 于 LS 解 的 选择 ， 因此， 我 们 只 需要 求 正 则 方程 的 任 一 特 解 即 可 . 我 们 看 
到 把 边界 条 件 (7.1.2) 加 入 到 正则 方程 (7.1.4) 、(7.1.5) 中 , 可 容易 得 在 此 约束 条 件 
下 的 上 4 和 os 的 一 组 LS 解 


1 
b= ND., (7.1.6) 


1 了 
& = = i= 0 (7.1.7) 


需要 注意 的 是 ， 广 和 Gi, i = 1,…,a, 并 不 是 py 和 oi, i= 1,…,a 的 无 偏 估计 ， 因 
为 这 些 参 数 都 是 不 可 估 的 . 

因为 ek(X) = a, 所 以 此 时 至 多 只 有 a 个 线性 无 关 的 可 估 函 数 ， 我 们 容易 得 到 
4+oi， 1 二 1,…,a 都 是 可 估 的 ， 且 线性 无 关 ， 于 是 任 一 可 估 函 数 都 可 表示 为 它 
们 的 线性 组 合 ， 即 具有 形式 


天 al 二 Ra (7.1.8) 
i=l 


1 i=1 
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如 果 想 得 到 一 个 只 包含 效应 ai(i = 1,… ,a) 而 不 包含 总 均值 y 的 可 估 函 数 ， 则 应 
取 可 4_1ci = 0. 这 个 事实 的 道 也 是 对 的 ， , 即 若 二 :lc = 0, 必 有 Fi_1ciai 可 估 . 于 
是 区 i_1ciai 可 估 > 杨 i_1ci = 0. 我 们 称 满 足 条 件 二: ci = 0 的 函数 并 1 cias 
对 照 , 由 于 诸 pi = A+ ai, 因此 对 照 总 i_1 ciai 又 可 表示 为 4 cipi , 例如 

— p(t D),2p 一 pj 一 Jk(i,jk 互 不 相等 ), ai 一 aj(i 关 j),2ai 一 oj 一 ak 人 7 天 互 
水 有 都 是 对 照 . 根据 Gauss-Markov 定理 ， 结 合 (7.1.8) 式 得 :对照 并 ?iciai 
的 BLU 估计 为 i_1 ciGi; = C1 ci 这 个 事实 可 表述 为 :效应 ai 的 任 一 对 昭 
的 BLU 估计 等 于 各 组 样本 均值 现 . 的 同一 对 照 . 于 是 我 们 证 明了 如 下 定理 : 

定理 7.1.1 对 于 单 向 分 类 模型 (7.1.1) 


(1) Dem 可 估 < Doe 是 一 个 对 照 ， 即 > =0, 
(2) 对 照 De 的 BLU 估计 为 Pew 


一 1 


例如 由 此 定理 得 对 任意 oa 一 oj z 了 都 是 可 佑 函数 , 其 BLU 估计 为 &; 6; = 
Wi — DD; .. 

7.1.2 ”假设 检验 

对 于 单 向 分 类 模型 ， 我 们 感 兴趣 的 是 考察 因子 4 的 a 个 水 平 效应 是 否 有 显著 
差异 ， 即 检验 假设 


Ho: om =az=…=aa， (7.1.9) 
或 等 价 地 检验 假设 
Ho: a ~aa=a2 -a = =00 1-aa=0, (7.1.10) 


由 定理 7.1.1 知 ， ai 一 Qa, i = 1,2,…,a -1 都 是 可 估 函 数 ， 所 以 假设 H 被 称 为 
可 检验 假设 若 Ho 为 真 ， 诸 ai 相等 ， 设 其 公共 值 为 a, 将 此 a 并 入 总 平均 值 1 
得 到 约 简 模 型 


Yij = H+ ei i=1,2,.…,a, j=1,2,. ,ni. (7.1.11) 


它 的 正则 方程 为 Np = ly 其 中 N = 洒 f_1ni , 1 为 所 有 元 素 都 是 1 的 N x1 的 向 
量 . 于 是 /在 Ho 下 的 约束 LS 解 为 


罗 1 
hn = NlY= N=. (7.1.12) 


根据 $5.1 的 结果 回归 平方 和 等 于 未 知 参数 的 LE 解 与 正则 方程 右 端 向 量 的 内 积 ， 
有 回归 平方 和 
RSS(p) = 六 ly =/N. (7.1.13) 
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另 一 方面 , 利用 (7.1.6) 式 和 (7.1.7) 式 及 正则 方程 , 容易 算出 上 和 ai, Qa2,… ,a 
的 回归 平方 和 
RSS(y,a) 全 RSS(oaasaa aa) 


| 
= fy.+ Da 
et 


= /N+ Dv (y /ny/N) 


i=1 
= Fm 5 (7.1.14) 
i=1 
由 于 残 差 平方 和 等 于 总 平方 和 减 去 回归 平方 和 , 于 是 相应 的 残 差 平方 和 为 
SS。= yy-Rss(pa)= > -DR/n 


i=l j=l i=1 
= DO-n). (7.1.15) 
i=1 j=1 

因为 到. 为 因子 4 的 第 i 个 水 平 4; 下 的 所 有 观测 (也 称 第 i 组 观测 值 ) 的 平均 值 ， 
所 以 ?21(yij 一 到 .)? 表示 出 了 第 i 个 水 平 4i 下 的 所 有 观测 yij(j = 1,… ,ni) 之 间 

的 变 差 平方 和 ， (7.1.15) 为 所 有 a 组 观测 的 总 变 差 平方 和 ， 常 被 称 为 组 内 平方 和 ， 
它 度量 了 随机 误差 对 观测 数据 的 影响 . 如 果 采 用 (7.1.1) 式 结构 计算 一 下 (7.1.15) 意 
义 就 更 加 清楚 了 .由 于 yij = +i+ei, 机 .=A+ai 十 本 ,其 中 百 = rp 


所 以 yi -各 .= ei 一 本 .因此 (yi 一 于)? = 克基 (es 一 瑟 )?, 完全 
是 由 误差 引起 的 ， 实 际 计算 中 常 采 用 如 下 便于 计算 的 形式 
SS.= Dy -Dyn . (7.1.16) 
i=1 j=1 1 
根据 84.1 的 结果 知 
2 =SS/(N -a)= bp —F)/(N- a) 人 EMS.. (7T.1.17) 
i=1 j=1 


从 (7.1.13) 和 (7.1.14) 得 到 平方 和 
SSs, 会 RSS(ua) - RSS(a) = bb3 ye /ni — P/N 
i=l 
= Dni(y -5.). (7.1.18) 
i 


这 是 由 因子 4 的 水 平 变化 所 引起 的 观测 数据 的 变 差 平方 和 ， 故 常 称 为 因子 4 的 平 
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方 和 ， 也 记 为 SS4. 若 把 因子 4 的 每 个 水 平 4i 下 的 观测 数据 看 成 一 组 ， (7.1.18) 
式 也 称 为 组 间 平 方 和 .因为 假设 Ho 只 含 e 一 1 个 独立 方程 ， 所 以 SS4 的 自由 度 为 
4 一 1 根据 85.1, 从 (7.1.17) 和 (7.1.18) 得 到 检验 假设 Ho 的 下 统 计量 为 
SSa/(e -1) _ MSa 
~ SS/(N-1) MS$。’ 
其 中 MSa = SS4/(a 一 1)，M5。 = SSe/(N 一 a) 分 别 为 因子 4 和 误差 的 均 方 . 当 
Ho 为 真 时 ， FF ~ Fa_lN-a. 
FF 统计 量 (7.1.19) 的 直观 意义 是 明显 的 . 分 子 中 SS4 为 因子 4 的 组 间 平方 
和 ， 它 反映 了 因子 4 各 水 平 对 观测 数据 影响 的 大 小 ， 分 母 中 分 子 中 SS。 为 误差 平 
方 和 ， 它 度量 了 随机 误差 的 对 观测 数据 的 影响 的 大 小 . 作 FF 检验 就 是 把 这 两 部 分 
(用 各 自 的 均 方 ) 进行 比较 . 若 MSa 与 MS。 相差 不 多 ， 则 FF 统计 量 的 值 应 相对 比 
较 小 ， 则 接受 原 假设 ， 认 为 因子 4 诸 水 平 效 应 相等 . 反之 ， 若 MS4 比 M5。 大 很 
多 , 即 已 统计 量 的 值 很 大 ， 则 我 们 拒绝 原 假设 Ho, 认为 因子 4 的 各 水 平 效 应 有 显 
著 差 异 . 
通常 把 主要 计算 结果 列 成 表格 ， 如 表 7.1.1, 称 为 方差 分 析 表 . 


(7.1.19) 


表 7.1.1“ 单 因素 方 林 分 析 表 


方差 源 均 方 下 值 
组 间 差 (因子 4) | a-1 MS4 = SSa/(a~1) | F= 2 


组 内 差 (误差 ) N-a SS。 
总 和 N-1 | SSr=SSA+SSe 


MS. = SSe/(N ~ a) | 


例 7.1.1 为 一 种 儿童 糖果 的 新 产品 设计 了 4 种 不 同 的 包装 (造型 不 同 ， 包 装 
纸 的 色彩 和 图 案 不 同 ). 为 了 考察 儿童 对 这 4 种 包装 方案 的 喜爱 程度 ,将 甲 ， 丁 式 包 
装 各 2 批 ， 乙 ， 丙 式 包装 各 3 批 ， 共 10 批 随机 地 分 给 10 家 食品 商店 各 一 批 试销 ， 
观察 它们 的 销售 量 . 选择 的 这 10 家 食品 店 所 处 地 段 的 繁华 程度 , 商店 的 规模 , 糖果 
广告 杜 窗 的 布置 都 相仿 . 最 后 的 糖果 销售 量 如 表 7.1.2. 问 当 显著 性 水 平 为 a = 0.05 
时 ， 儿 童 们 对 糖果 的 4 种 包装 方式 的 喜爱 程度 是 否 有 显著 差异 . 


表 7.1.2 糖果 销售 量 
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解 ”在 这 个 问题 里 ， 考 察 的 指标 (数据 ) 是 销售 量 ， 因 子 4 是 包装 方式 ， 其 水 
平 41，A2，Ahs, 44, 分 别 是 甲 ， 乙 , 两 ， 丁 4 种 包装 . 表 7.1.2 中 双 竖 线 右 侧 数据 是 
为 了 计算 诸 平方 和 而 根据 左 侧 原始 数据 先行 计算 的 ， 诸 平方 和 计算 如 下 ， 


DD = 02)? + (18)? +--+ (30)? = 3544， 
3 沁 


y= Dv =12+18+.+30= 180, 


总 平方 和 SSyr = 304， 因子 4 平方 和 SS4 = 258， 误差 平方 和 SS。 = 46. 方差 分 
析 计 算 结果 如 表 7.1.3 所 示 : 


表 7.1.3 ”方差 分 析 表 


方差 源 
组 间 差 (因子 4) 3 
组 内 差 (误差 ) 6 


总 和 


查 下 分 布 表 ， Fa,e(0.05) = 4.76 < 11.21. 所 以 当 显著 性 水 平 为 a = 0.05 时 ， 
儿童 们 对 糖果 的 4 种 包装 方式 的 喜爱 程度 有 显著 差异 . 

事实 上 , 若 用 软件 (如 SAS, matlab 等 ) 作 方差 分 析 计算 的 话 ， 在 上 表 中 还 有 一 
列 是 与 检验 统计 量 FF 值 相 对 应 的 p 值 , 它 是 随机 变量 Fi,w-。 取 大 于 Fs_1,n-_s(a) 
值 的 概率 . 若 p 值 小 于 给 定 的 显著 性 水 平 ， 则 拒绝 原 假设 ,此 题 车 用 软件 进行 方差 
分 析 计 算 ， 得 到 的 p 值 为 0.0071, 小 于 0.05, 从 而 拒绝 原 假设 ， 认 为 儿童 们 对 糖果 
的 4 种 包装 方式 的 喜爱 程度 有 显著 差异 . 


7.1.3 ”同时 置信 区 间 


如 果 经 方差 分 析 的 所 检验, 假设 Ho mm = az = … = aa 被 拒绝 ， 则 因子 4 
的 a 个 水 平 的 效应 不 全 相等 ， 这 时 我 们 希望 对 效应 之 差 ai - aj, i 关 j 作出 置信 区 
间 ， 以 便 知道 哪些 效应 不 相等 .更 一 般 地 ， 对 任 一 可 估 函 数 污 ; ciai 作 置 信 区 间 . 
依 定理 7.1.1, ;ciai 可 估 当 且 仅 当 可; cia 为 一 对 照 . 所 以 ， 以 下 只 考虑 对 照 的 
置信 区 间 ， 现 在 我 们 先 给 出 Bonferroni 区 间 和 Scheffe 区 间 ， 尔 后 详细 讨论 构造 置 
信 区 间 的 另 一 种 方法 ， Tukey 法 . 

设 = (el,cz,…,ca), cI= 0 即 学 ;ciai 为 一 对 照 . 容易 验证 ， 它 的 BLU 估 
计 志 ,c 亚 .的 方差 为 


(Ben.) = 只 i (7.1.20) 
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根据 85.3, 任意 m 个 对 照 部 ;cas (k = 1,2,…,m) 的 置信 系数 为 1- a 的 Bon- 
ferroni 同时 置信 区 间 为 


De tit- (i)5 [Dey /ms 二 (7.1.21) 


方差 o? 的 估计 3? 如 (7.1.17) 式 . 
特别 ， 对 m 个 形 如 ai -aj 的 对 照 的 置信 系数 为 1- a 的 Bonferroni 同时 置信 


区 间 为 
(0 ) tw (2 ) 5 /二 去 (7.1.22) 


而 由 85.3, 所 有 对 照 > ciass 置信 系数 为 1 -a 的 Scheff 置信 区 间 为 


Den £0 fo- Den (TE , (7.1.23) 


特别 ， 全 部 Cz 个 对 照 ui - aj, i 去 5 的 置信 系数 为 1 - a 的 Scheffe 置信 区 间 为 


a) 让 
DE (a ~ DFs-in-a(o) 位: 二 ) (7.1.24) 


现在 我 们 考虑 Tukey 方法 .为 此 先 给 出 如 下 定义 : 
定义 7.1.1 设 有 ,22,…,Zm ~ N(0,1),mW? ~ Xx, 且 所 有 这 些 随机 变量 都 
相互 独立 ， 则 称 随机 变量 
max Qi — min Zi 
qn 


的 分 布 为 参数 为 n,m 的 学 生化 极 差分 布 (studentized range distribution). 它 的 上 侧 
a 分 位 点 记 为 gnm(a), 即 


P{9.。 < gnm(a)} =1— oa. 


文献 上 给 出 了 gm(a) 的 表 ( 见 文献 [1] 中 附 表 三 )、 
下 面 的 定理 给 出 了 构造 同时 置信 区 间 的 Tukey 方法 - 
定理 7.1.2 设 下 ~ No (i = 12,,n), VU = mm ~ xm 且 
妨 隐 ，， 丈 相互 独立 ， 则 所 有 的 ys - 属 , 守 关 了 的 置信 系数 为 1 - a 同时 置信 
区 间 为 
Vi- gnm(a)s < pi— pi < YY + gnm(a)d. (7.1.25) 
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证 明 定义 下 
二 (7.1.26) 
o 


则 Zi ~ N(0, 了 1D). 于 是 由 定义 7.1.1 有 


max Zi — min Zi 


517 ~ qnm: 
所 以 训 
Pfmax Zi — min 2; < Za =1-a, 
等 价 地 3 
P{max|2: — Zi < qn (0)} =1—o, 
2 7 
也 就 是 


P{l2: -2i| < 24. (a), 对 所 有 1j}=1-a. 
将 (7.1.26) 代入 上 式 ， 即 得 
P{l(¥i ~—»%)— (pp)| < 09.m(0), 对 所 有 i,j} =1-a. 


这 就 证 明了 所 要 的 结论 . 

不 难看 出 , 这 个 定理 只 适用 于 平衡 方差 分 析 模型 . 例如 对 平衡 单 向 分 类 模型 ， 
设 由 =m=…=ma= 必 则 N= na 机 ~ NA+ai 宁 )) 且 对 让 天方 殉 与 翅 ' 相 
互 独立 , 又 U = (N 一 a)5?/a? ~ X%_。 应 用 定理 7.1.2 可 得 ， 对 一 切 Qi 一 Qj, i 了 
的 置信 系数 为 1 - a 的 同时 置信 区 间 为 


G 
亚 一 下 十 mw-a(o) 广 ， (7.1.27) 


这 就 是 所 谓 的 Tukey 区 间 . 
为 了 把 Tukey 区 间 推 广 到 所 有 的 对 照 学; ciae 我 们 先 证 明 如 下 引 理 ， 
引 理 7.1.1 设 a1,a2,…,am 为 实数 ， 且 对 一 切 庆 六 lai 一 ojl < b, 当 上 且 仅 当 
Yeciai < 5 可 ;cil/2, 对 一 切 满足 并 ,ci = 0 的 c1,c2,… ,cm 都 成 立 . 
证 明 ”充分 性 的 证 明 很 容易 。 事实 上 ,车 忆 iciai < Zilcil/2 成 立 ， 则 
lai— ai|=|]ai+(-a;)| < 6(1+1)/2=%b, 对 一 切 i,j 成 立 . 
必要 性 若 ci 都 等 于 0, 结论 自然 成 立 ， 假 定 至 少 有 一 个 ci 关 0, 那么 ， 记 
nh ={i, c>0， 
1 ={i c<0), 


da = > lal/2， 


上 
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且 有 
Dot c=0, 24= Do- De=2D ct 


iEl iEls iEn iEls iEl 


利用 这 些 关系 式 ， 容 易 推 得 


dD oias 
, 


iED iEl 


= > > ci(—cj)ai+ bP 3 ci(cj)a5 


iEn jiElz iElh jelz 


= bs 和 一 cicji(ai — aj) - 


iEh je 
但 对 于 ie ,jeI 有 
| 一 cici(ai -of = -cjcilaj 一 ail < ~cicyb. 


对 (7.1.29) 取 绝 对 值 并 将 (7.1.30) 代入 得 


Be > 匹 |-cici(ai 一 oj)| 


i€Eh jel> 

8 Dae) 
i€h jel2 

bd?. 


I 人 


IA 


因 d > 0, 从 上 式 立 得 所 证 . 


(7.1.28) 


(7.1.29) 


(7.1.30) 


(7.1.31) 


定理 7.1.3 ”对 平衡 单 向 分 类 模型 (7.1.1), 所 有 对 照 学 ;cia; 的 置信 系数 为 


1 一 a 的 Tukey 区 间 为 
DD gan-n(o) 后 DD 


证 明 因为 


(7.1.32) 


{oore Den 十 en(a3 Ial， 对 所 有 并 中 Doome} 


= P| -| < os(0)3 先 江 Iel， 对 所 有 靖 足 民 c = 0 的)， 


利用 引 理 7.1.1 及 (7.1.27) 式 ， 上 式 等 于 


Pl 0) 0) Sos) 对 i) = 


87.1 单 向 分 类 模型 -207 . 


定理 得 证 . 

最 后 ， 对 平衡 单 向 分 类 模型 (7.1.1), 即 mm = n(i = 1,…,a), 我 们 把 Tukey 区 间 
(7.1.32) 和 Scheffé 区 间 (7.1.23) 加 以 比较 . 这 两 种 置信 区 间 的 中 心 都 相同 ， 于 是 区 
间 短 者 为 好 ， 这 两 种 区 间 的 长 度 分 别 为 


各 Je- Dam (0) Do 


不 难看 出 ， 对 一 些 对 照 ， Tukey 区 间 较 短 ， 而 对 另外 一 些 对 照 ， 则 Scheffe 区 间 较 
短 ， 一 般 说 来 ， 对 大 部 分 ci = 0 的 简单 对 照 Tukey 区 间 较 短 些 ， 对 较 复杂 的 对 照 
Scheffe 区 间 则 短 些 ， 关 于 这 两 种 区 间 的 一 些 数字 比较 可 以 在 文献 [55] 中 找到 . 

例 7.1.2 菜单 位 研制 出 一 种 治疗 头痛 的 新 药 , 现 把 此 新 药 与 阿司匹林 和 安慰 
剂 (并 不 是 真正 的 药 ， 而 是 生理 盐水 ， 葡 萄 糖 剂 等 ) 作 比 较 . 观测 值 为 病人 服药 后 
头 不 痛 所 持续 的 时 间 ， 数 据 按 药 的 品种 列 入 表 7.1.4 


表 7.1.4 持续 的 时 间 表 


药 的 品种 观测 值 y;; 各 组 平均 值 世 . 
安慰 剂 0.0， 1.0 2 1.0 | 0.5 
新 药 2.3, 3.5, 2.8, 2.5 2.775 


3.1, 2.7, 3.8 


解 ” 经 计算 ( 手 算 或 计算 机 软件 ) 得 方差 分 析 表 如 表 7.1.5 
表 7.1.5 ”数据 方 关 分 析 表 


方 关 演 自由 度 平方 和 均 方 下 值 
组 间 差 4.851 | 14.94 
组 内 差 (误差) 0325 | 


总 和 


由 表 得 ?2 = M5。 = 0.325， 取 显 著 性 水 平 a = 0.05, 因为 本 6=5.14 < F = 14.94， 
所 以 应 拒绝 原 假设 。 aa = az = as. 即 三 种 药 效 有 显著 差异 . 若 用 计算 机 软件 进行 
单 因素 方差 分 析 , 在 给 出 上 表 的 同时 还 有 一 项 p 信 ， 可 得 此 题 的 p = 0.0047 < 0.05， 
也 可 得 出 拒绝 原 假设 的 结论 . 
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下 面 我 们 进一步 作 新 药 与 安慰 剂 ， 新 药 与 阿司匹林 的 效应 之 差 ui - aj, i > j 
的 同时 置信 区 间 (因为 这 个 例子 是 非 平衡 模型 ， 所 以 我 们 不 能 应 用 Tukey 方法 构造 
同时 置信 区 间 )， 
1. 置信 系数 为 0.95 的 Bonferroni 区 间 
as 一 aa2: (V3. — Ya.) 土 te (小 ) 人 人 十 }) = 0.425 土 1.430 = [一 1.005, 1.855] 
ar 一 aas: [0.990, 4.410] #** az 一 an [0.653, 3.897] ### 


2. 置信 系数 为 0.95 的 Scheffe 区 间 
和 


1/2 
aa — Q2: (a. 一 殉 .) 土 5 (zm (0.05) G i)) =0.425 土 1.396 = [-0.971, 1.821] 


Qs 一 aas [1.032，4.368] ##*# az 一 aa [0.693, 3.857] 。 * xx 


对 于 这 些 结果 我 们 可 以 得 到 如 下 结论 ， 

(1) 凡 置 信 区 间 不 包含 0 的 ， 这 两 个 效应 的 差异 就 是 显著 的 ， 在 其 右 侧 用 *** 
表 出 .其它 没有 标 出 的 就 是 无 显著 差异 的 . 这 说 明 新 药 比 安慰 剂 显著 有 效 ， 但 新 药 
与 阿司匹林 的 疗效 无 显著 差异 . 

(2) 对 这 个 例子 , 从 Bonferroni 区 间 和 Scheffe 区 间 所 得 出 的 结论 一 致 , 但 Bon- 
ferroni 区 间 比 Scheffe 区 间 要 长 . 

(3) 所 有 这 些 两 效应 之 差 的 同时 置信 区 间 都 可 在 SAS 软件 通过 方差 分 析 计 算 
得 到 . 


$7.2 两 向 分 类 模型 (无 交互 效应 ) 


假设 在 一 项 试验 中 , 除 因子 4 和 B 之 外 所 有 其 它 因子 都 处 于 完全 控制 状态 . 我 
们 的 目的 是 要 研究 因子 4 和 B 各 个 水 平 对 因 变 量 Y 的 影响 . 假设 因子 4 有 a 个 水 
平 ,分 别 记 为 41, 42，,…, 4。, 因子 B 有 5 个 水 平 ,分 别 记 为 Bi, B2,…, Bo. 在 因子 4 
的 第 i 个 水 平 A; 与 因子 B 的 第 j 个 水 平 Bi( 又 称 水 平 组 合 (4;, B;)) 之 下 进行 c 次 
重复 试验 , 并 记 其 第 次 试验 的 观测 为 yx (i = 1,…,a, j=1,…,b, ==1,.… ,0). 
对 于 无 交互 效应 的 两 向 分 类 模型 在 第 一 章 已 经 给 出 , 此 时 一 般 不 必 进 行 重复 试验 ， 
每 个 水 平 组 合 下 只 作 一 次 试验 就 可 以 了 . 所 以 我 们 在 这 一 节 只 讨论 = 1 的 情形 . 
对 于 c > 1 的 情形 ， 统 计 分 析 方法 完全 相同 、 依 第 一 章 讨论 知 ， 此 时 的 模型 为 


Yi = + ost; + es, i=b,,0, j=1,.,b, (7.2.1) 


这 里 p 表示 总 半 均 ， as 和 所 分 别 表示 水 平 4; 和 B; 的 效应 ,随机 误差 ei ~ 
N(0,0?), 且 对 所 有 i,j， ei; 都 相互 独立 、 和 上 节 类 似 ， 引 进 矩 阵 : 


87.2 两 向 分 类 模型 (无 交互 效应 ) WE 


y= (2 Yi Ya Yaby Yals Ya2,*** Yab), 


1 


T” ={(aaao ac,p2 ,Po), 


ef = (eyel2， elpye2l …)e26 yealyea2 yeab)， 
则 模型 (7.2.1) 的 设计 阵 为 
1 lp 五 
1 1 五 
x=| ” " ”|= :heliheh), (729) 
b % 瑟 
1 1 J 


这 里 @ 表示 矩阵 的 Kroneker 乘积 . 于 是 ,两 向 分 类 模型 (7.2.1) 表 成 了 线性 模型 的 
一 般 形 式 y = XY+e, 这 里 e ~ N(0,o? 了 ). 对 这 个 模型 ， 它 的 设计 阵 X 仍 是 列 降 秩 
的 ， 即 秩 小 于 它 的 列 数 . 


7.2.1 参数 估计 
为 设计 阵 (7.2.2) 是 列 降 秩 的 (rk(X) = a+b 一 1), 所 以 所 有 参数 p, a1, a2,… ,Qo， 


pb，…po 都 是 不 可 估 的 . 依照 和 上 节 完 全 类 似 的 方法 ， 我 们 先导 出 参数 的 一 组 
LS 解 ， 再 表征 所 有 可 估 函 数 . 


对 两 向 分 类 模型 (7.2.1), 不 难 验证 正则 方程 X'XY = X'y 为 


obp+b ota =y..， 
i=1 j=1 
bpy+bait+ DB;= yi., [Es (7.2.3) 
j=1 
op+ etopy =ys, j=1,-.…,b, 
其 中 y= PDD = 19 57 = 局 hy 从 (7.2.2) 或 (7.2.3) 容 
易 得 到 rk(X) = a +5 一 1. 和 上 节 同 样 的 道理 ， 我 们 只 需求 任意 一 组 LS 解 . 因为 


未 知 参数 有 a + 8+ 1 个 ， 我 们 可 以 找 男 外 两 个 独立 方程 ， 类似 上 节 关 于 边界 条 件 
(7.1.1) 讨论 ， 对 两 向 分 类 模型 (7.2.1) 我 们 引进 如 下 边界 条 件 


a b 
Dei=0 DB=0, {7.2.4) 
i=1 


j=1 
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把 这 两 个 条 件 加 入 到 方程 组 (7.2.3) 中 .正则 方程 (7.2.3) 变 为 


abp = y..， 
byt+bai=y, i=l,,0, (7.2.5) 
aptaBj=yi, j=1,.…,b. 
由 (7.2.5) 可 解 得 一 组 LS 解 
p= 
Gai = (7.2.6) 
房 = 


在 两 向 分 类 模型 中 ， 我 们 总 是 分 别 比较 因子 4 和 B 各 水 平 的 效应 ， 于 是 对 形 
如 fcias 和 忆 )_1 4;B; 的 线性 函数 感 兴趣 ， 下 面 我 们 就 寻求 这 样 的 函数 的 可 估 
条 件 . 设 志和 并 ?11iyi; 为 y 的 任 一 线性 函数 .因为 


s (Fm) = 关 ): 守 。 寺 (o)e， 


iel j=1 i=l j=1 i=1 Nj=1 j=1 \i=1 


所 以 , 欲 使 (本 1 忆 ?_1145yys) = 二 :ciai 当 且 仅 当 对 所 有 彤 满 足 于 ,4 = 
0, 且 (Di) ox = 开 L aa 于 是 , 并 cs = 开 &， 冤 ?_14y = 0. 这 就 证 明 
了 ， 车 也 fi cai 可 估 ， 必 有 学 人 1 ei = 0. 反 过 来 ， 易 见 车 开 ?_ ;ci = 0, 宁 % cios 
必 可 估 ， 于 是 志和 ctat 可 估 <> 于 2 cios 为 一 对 照 ， 完 全 类 似 地 ， 于 ?由 有 
可 估 的 充 要 条 件 是 并 ?-; djB; 为 一 对 照 

根据 Gauss-Markov 定理 ， 结 合 (7.2.6) 式 得 ， 对 照 Ziciai 的 BLU 估计 
为 PE sa = 二 4cz 同样 ， 对 照 可 14d;B; 的 BLU 估计 为 并 9; 必 房 = 
Zi-: 由 7 于 是 我 们 证 明了 如 下 定理 ; 

定理 7.2.1 ”对 于 两 向 分 类 模型 (7.2.1) 

(Dcai 可 估 <=> 0:ciai 是 一 个 对 照 ， 即 于 和 ,ci = 0, 这 时 ， 它 的 
BLU 估计 为 寺 2，c， . 

(9) 可-14B; 可 估 后 > 志 ?-， 必 B 为 一 对 照 ， 即 工 ?_， dj = 0, 这 时 ， 它 的 
BLU 估计 为 D9 di = 5d 
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例如 由 此 定理 得 ， 任 意 as - cz， B; - B;, 都 是 可 估 函 数 ， 它 们 的 BLU 估计 
分 别 为 @i 一 Qs = 束 一 死 . 和 房 一 房 ,= 可 ji 一 页 
7.2.2 ”假设 检验 


对 于 两 向 分 类 模型 ， 我 们 感 兴趣 的 主要 有 两 个 ， 其 一 是 考察 因子 4 的 a 个 水 
平 效应 是 否 有 显著 差异 ， 即 检验 假设 


一 :al=a=…=aa， (7.2.7) 
其 二 是 因子 B 的 5 个 水 平 的 效应 是 否 有 显著 差异 ， 即 检验 假设 
H2: Bi=P=-…=P,. (7.2.8) 


我 们 先导 出 检验 H 的 统计 量 .根据 85.1, 回归 平方 和 


a b 
RSS(1,0,8) = y+ dD yat Dy 


i=1 j=1 


7.2.9) 


1 
&|S 
十 
EES 
了 
=|S, 
上 
SS 
Wt 
十 
pg 
MM- 
a | 
1 
全 | 
&|S, 
Nin 


残 差 平方 和 为 


Ss. = yy — RSS(p, 0, 6) 


Sb vy 
-半音 -( 守 旦 - 芋 )- 志 己 - 旧 | (2.10) 


i=1 j=1 j=1 


其 自由 度 为 ab 一 (a +b 一 1) = (a 一 1)(b 一 1). 上 式 也 可 变形 为 


a b 
Sse = DD (ys -DD +9.). (7.2.11) 


=1 j=1 
于 是 o? 的 无 偏 估计 为 


?=SSc/l(a— 1)(6— 1)) EMS.. (7.2.12) 


车 画 为 真 ， 则 诸 i 相等 ， 设 其 公共 值 为 a, 将 此 a 并 入 总 平均 值 j, 得 到 约 
简 模 型 


Yi = +b;+es i=L2…,a, -j=1,2,.…,b, (7.2.13) 
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这 是 一 个 单 向 分 类 模型 . 利用 87.1 的 结果 , 立 得 上 和 B;, j= 1,…,b 的 一 组 LS 解 


hn, = Ty. SD 
5 
ob (7.2.14) 
次 1 a a 
Bn, a j=1,.…,6. 


于 是 可 以 算出 对 应 的 上 4 和 ,Po,… ,Ba 的 回归 平方 和 


b 
RSS(A DB) = Pn, y.. + Yj 
j=1 


2 和 2 2 
= 和 + 加 中 (7.2.15) 
由 (7.2.9) 和 (7.2.15) 得 到 因子 4 的 平方 和 为 


SS4= RSsUwwb)- RSS0 有 = 六 基 - 恤 -Em -7.). (7.2.16) 


和 单 向 分 类 模型 一 样 ，SS4 是 因子 4 的 水 平 变 化 所 引起 的 观测 数据 的 变 差 平 
方 和 ， 因 为 假设 于 含 a 一 1 个 独立 方程 ， 所 以 SS4 的 自由 度 为 a 一 1. 根据 $5.1， 
从 (7.2.16) 和 (7.2.10) 得 到 检验 假设 Hi 的 已 统计 量 为 

SSa/la-D _ MSA 
SS./(a—- (6-1) MS.’ 
其 中 M54 = SS4/(a~1), MS。 = SS。/(a 一 1)(b 一 1) 分 别 为 因子 4 和 误差 的 均 方 . 
当 印 为 真 时 ， 到 ~ Fa-1(a-1)(5-1): 瓦 统计 量 (7.2.17) 的 直观 意义 与 (7.1.19) 类 
似 . 

用 完全 类 似 的 方法 ， 可 以 导出 检验 假设 Hs 的 下 统计 量 ， 此 时 ， 因 子 B 的 平 
方 和 为 


五 = (7.2.17) 


sso -六 号 到 -六 六 -pr (7.2.18) 
j=1 i=] j=1 
和 SS4 一 样 ， SSe 是 因子 B 的 水 平 变化 所 引起 的 观测 数据 的 变 差 平 方 和 . 
因为 假设 Hs 含 6 一 1 个 独立 方程 ， 所 以 SSs 的 自由 度 为 5 一 1, 同样 根据 85.1, 得 
到 检验 假设 #2 的 正统 计量 为 
= SSp/(b— 1) _ MSBp 
”53/(a -DG-1) MS." 
其 中 MSe = SSB/(a 一 D)，MSe = SS。/(a 一 1)(b 1) 分 别 为 因子 互 和 误差 的 均 
方 . 当 Hs 为 真 时 ， Fo ~ Fo_1(a_D(6_y): 


对 于 两 向 分 类 模型 ， 方 差分 析 表 如 表 7.2.1. 


(7.2.19) 


$7.2 两 向 分 类 模型 (无 交互 效应 ) "29 


表 7.2.1 无 重复 试验 无 交互 效应 两 因素 方差 分 析 表 


方差 源 | 。 自由 度 平方 和 均 方 严 什 
本 | ec ss MS4 -ssa/a-D |= 
因子 B| 51 sss MsSa =SSe/0 -1 | 到 = 和 
误差 |(a-DG6-TD SS。 M5S。= SSse/(a -DG 了 

总 和 | ab-1 |ssr=SS4+SSa+SS. 


例 7.2.1 一 种 火箭 使 用 了 四 种 燃料 、 三 种 推进 器 进行 射程 试验 ,对 于 每 种 燃 
料 与 推进 器 的 组 合作 一 次 试验 ， 得 到 的 试验 数据 如 表 7 7.2.2, 问 各 种 燃料 之 间 及 各 种 
推进 器 之 间 有 无 显著 差异 ? 


表 7.2.2 火箭 试验 数据 
推进 器 有 


解 ”这 是 一 个 双 因素 试验 ， 且 不 考虑 交互 效应 ， 记 “燃料 ”为 因子 4, 它 有 4 
个 水 平 ， 各 个 水 平 的 效应 记 为 a; (i = 1,2,3,4). “推进 器 ”为 因子 B, 它 有 3 个 水 
平 ， 记 水 平 的 效应 为 8; (7 = 1 2, 3). 我 们 在 显著 性 水 平 为 a = 0.05 下 检验 


Hi: 


Ha: B=b= Pb. 
用 表 7.2.2 中 数据 做 方差 分 析 计算 ， 并 把 计算 结果 填 入 如 下 的 方差 分 析 表 7.2.3. 


表 7.2.3 ”火箭 数据 方差 分 析 表 


aa=2=03= 0, 


方差 源 自由 度 平方 和 均 方 下 值 
因子 4 3 157.59 52.53 五 =0.43 
因子 B 2 223.85 | 111.93 瑟 = 0.92 
误 差 6 - 731.98 122.00 

总 和 11 1113.42 
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因为 丽 ,e(0.05) = 4.76 > 五 = 0.43, 接受 瑟 . 又 因为 Fz,6(0.05) = 5.14 > 歹 = 
0.92, 所 以 接受 配 , 即 认为 各 种 燃料 和 各 种 推进 器 之 间 的 差异 对 火 入 射程 无 显著 影 
响 . 

7.2.3 ”同时 置信 区 间 


如 果 经 FF 检验 ， 假 设 本 被 拒绝 ， 则 表明 因子 4 的 a 个 水 平 的 效应 不 全 相 
等 .和 单 向 分 类 模型 一 样 ， 这 时 我 们 希望 构造 对 照 ai -~ at' 的 同时 置信 区 间 . 类 似 
地 ， 如 果 于 被 拒绝 ， 则 表明 因子 B 的 8 个 水 平 的 效应 不 全 相等 ， 于 是 构造 对 照 
Bi 一 By' 的 同时 置信 区 间 . 下 面 只 给 出 这 两 类 较 简单 对 照 的 同时 置信 区 间 ， 这 些 结 
果 很 容易 推广 到 更 一 般 形式 的 对 照 并 ?bai 和 by diB; 的 同时 置信 区 间 ， 读 者 
可 自己 完成 .根据 85.3 同时 置信 区 间 的 一 般 结 果 ， 很 容易 推 得 下 列 事实 . 

1. Bonferroni 区 间 

任意 m 个 ai 一 az,i 关 六 的 置信 系数 为 1 - a 的 Bonferroni 同时 置信 区 间 为 


日 
(Vi. 一 至 .) 士 ao-D(b-1) ( 艺 ) 6 8) s (7.2.20) 
类 似 地 ， 任 意 m 个 B; - Bj;',j 关 j' 的 置信 系数 为 1 -a 的 Bonferroni 同时 置 
信和 区间 为 . 
(07; —93) te a0-y) ( 兹 ) 人 目 (7.2.21) 
其 中 3 如 (7.2.12) 所 示 . 


2. Scheff 区 间 


所 有 形 如 ai - qi,i 关 说 的 对 照 有 a 一 1 个 线性 无 关 ， 所 以 对 这 种 形式 的 对 照 
的 全 体 ， 置 信 系数 为 1 - a 的 Scheffe 同时 置信 区 间 为 


(天 一死 .) 士 5 -了 TDRE ie-Do-ub(o) (2 (7.2.22) 


对 于 所 有 对 照 8; - B;,,j 关 j' 的 置信 系数 为 1 - a 的 Scheffe 同时 置信 区 间 为 


03) 0/C- DF-nee-ve- no) (2). (7.2.23) 


3. Tukey 区 间 
对 所 有 对 照 as az,i 取 并 的 置信 系数 为 1 一 a 的 Tukey 同时 置信 区 间 为 


(Yi. — Fi) + ga, (a—1)(6-1) (a) 亏 . (7.2.24) 


87.2 两 向 分 类 模型 (无 交互 效应 ) sg 


对 所 有 对 照 B; - 万, 地 7 的 置信 系数 为 1 - a 的 Tukey 同时 置信 区 间 为 
(3 -D1) + -D6-D (0) <， (7.2.25) 


(7.2.24) 和 (7.2.25) 成 立 是 因为 


| 
~N i . 证 


(rt i 2). Fb 


以 及 (a 一 1)(b 一 1)3?/o? ~ Xx?,_w(。-_1), 再 应 用 定理 7.1.2 推 得 . 

例 7.2.2 ”为 了 考察 高 温 合金 中 碳 的 含量 (因子 4) 和 镜 与 铝 的 含量 之 和 (因子 
B) 对 合金 强度 的 影响 . 因子 4 取 3 个 水 平 0.03, 0.04, 0.05( 上 述 数字 表示 碳 的 含量 
占 合 金 总 量 的 百分比 ), 因子 B 取 4 个 水 平 3.3, 3.4, 3.5, 3.6( 上 述 数字 意义 同上 ), 在 
每 个 水 平 组 合 下 各 作 一 次 试验 ， 试 验 结果 如 表 7.2.4 所 示 . 


表 7.2.4 ”合金 强度 试验 数据 
B 鲁 与 铝 的 含量 之 和 
3.3 | 3.4 | 3.5 3.5 | i: 


碳 0.03 63.9 65.6 66.8 259.4 
含 0.04 66.4 67.8 69.0 268.3 
量 0.05 71.0 283.6 


201.3 


解 ” 计 算 诸 平 方 和 并 将 数值 填 入 方差 分 析 表 ， 如 表 7.2.5 
表 7.2.5 方 闲 分 析 表 


方差 源 均 方 下 值 
因子 4 74.91 37.46 Fi =70.05 
因子 已 3 35.17 | 11.72 F = 21.92 
误差 | 6 3.21 | 0.535 | 

总 和 | aa 113.29 


查 表 Fz,6(0.05) = 5.14 < 70.05 = 所 ,Fa.e(0.05) = 4.76 < 21.92 = 忆 , 所 以 当 显 
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著 人 性 水 平 a = 0.05 时 ， 因 子 4 的 3 个 水 平 之 间 和 因子 B 的 4 个 水 平 之 间 对 合金 
强度 的 影响 都 有 显著 差异 ， 因 子 4 和 因子 B 都 是 显著 的 . 
为 了 进一步 比较 因子 的 各 水 平 效应 间 差异 ， 可 以 构造 同时 置信 区 间 . 
我 们 现在 计算 Tukey 同时 置信 区 间 . 由 文献 [1j 中 的 表 三 , 查 得 gzs = 4.34, 5 = 
0.731, 1/Va = 1/V3 = 0.58. 依 (7.2.24), 第 i 和 第 i 碳 含量 效应 之 差 ai 一 qs,i 关 i 
的 Tukey 同时 党 信 区 间 为 
(于 一死 -) 士 1.84. (7.2.26) 


例如 对 含量 3 的 水 平 0.05 效应 与 含量 2 的 水 平 0.04 效应 之 差 as - as 有 
(70.90 — 67.08) + 1.84 = [1.98, 5.66], 


即 1.98 < as - az < 5.66. 这 个 区 间 不 包含 原点 ， 所 以 ， 这 两 个 效应 有 显著 差异 . 其 
它 对 照 的 Tukey 区 间 也 类 似 容易 写 出 ， 经 计算 因子 4 的 各 个 水 平 效应 间 都 有 显著 
差异 ， 而 对 因子 B 的 4 个 水 平 ， 效 应 Bl 和 Ps, Ba。 和 Bs 及 房 和 Bs 之 间 存 在 显著 
差异 . 

用 Bnferroni 及 Scheffs 同时 置信 区 间 计 算 ， 除 了 区 间 不 同 外 ， 最 后 得 到 的 结论 
和 Tukey 方法 一 致 . 


$7.3 ”两 向 分 类 模型 (交互 效应 存在 ) 


在 上 节 的 两 向 分 类 模型 中 ， 如 果 因子 4 和 B 之 间 有 交互 效应 (关于 交互 效应 
的 概念 见 81.2), 并 用 ?5 记 水 平 hi 和 B; 的 交互 效应 ， 要 分 析 交 互 效 应 ， 在 各 个 水 
平 组 合 下 需要 作 重 复试 验 . 设 每 种 组 合 下 试验 次 数 为 c, 且 第 次 观测 值 为 wjx, 则 
得 到 模型 


Vik =P+aithB;+Yyitesr i=1,…,a j=1,.…,b, k=1,..…,c, (7.3.1) 


这 里 p 表示 总 平均 ，as 和 8; 分 别 表示 水 平 A; 和 Bi 的 主 效应 ，eij 表示 在 水 平 
组 合 4; 和 B; 的 第 大 次 观测 的 随机 误差 ， 并 假定 eijs ~ N(0,0?), 且 对 所 有 也 广大 
上 5 都 相互 独立 ， 和 以 前 类 似 ， 通 过 引进 矩阵 记号 ， 模 型 (7.3.1) 可 表示 为 标准 的 线 
性 模型 的 形式 . 


7.3.1 参数 估计 


依照 和 前 面 完全 类 似 的 方法 ， 我 们 先导 出 参数 的 一 组 LS 解 ， 再 表征 所 有 可 估 
函数 . 


87.3 两 向 分 类 模型 (交互 效应 存在 ) “217 


对 两 向 分 类 模型 (7.3.1), 不 难 验证 正则 方程 为 


a b a bb 
abcp + be aitacd BitedD Dj=y.., (7.3.2) 
气 | re 
b b 
bep + bcms + cD Bi;+eD y=., i=1,.……,a, (7.3.3) 
j=1 I=1 
a b 
acp teD ostacB; te Di = yi., j= ,b  (7.3.4) 
i=1 i=1 
chteatceB tem =yi., i=l,,a j=1,.,b, (7.3.5) 


其 中 y= DE DY Di vn y= De Dyn .= TD ky Wy 
= kyijk. 现在 模型 的 设计 阵 X 有 a+b+ab+1 列 , 即 模型 未 知 参数 有 a+b+ab+1 
个 . 另 一 方面 ， 容 易 看 出 ， 正 则 方程 中 只 有 (7.3.5) 的 ab 个 方程 是 独立 方程 ， 所 以 
Tk(X) = ab < atb+ab+1. 为 了 获得 一 组 LS 解 ,我 们 可 以 附加 (a+5b+ab+1) 一 (ab) = 
4 十 b 十 1 个 独立 约束 条 件 ， 即 边界 条 件 ， 类似 于 前 面 几 节 的 讨论 ， 边 界 条 件 可 取 
为 : 


a b 

De =0, D8; = 

放 1 j=1 (7.3.6) 
a b 

DNi=0 i=,b, Di=0 i=1,..,a. 

i=1 j=1 


这 里 共有 a+b+2 个 方程 , 但 因 村 ?_， 并 ?75 = 0, 所 以 实际 上 只 有 a+b+1 个 是 
独立 方程 ， 把 这 些 约束 条 件 加 入 到 方程 组 (7.3.3) 中 ， 很 容易 求 出 参数 pa, Bi 
的 一 组 特定 的 LS 解 : 


(7.3.7) 
i=1,.,a, (7.3.8) 
j=1,.,b. (7.3.9) 


.i=l 0 j=1,.…,b, (7.3.10) 


其 中 到 .= 坏人  = 4， = = 
现在 我 们 讨论 对 模型 (7.3.1), 哪些 参数 的 函数 是 可 估 的 .从 (7.3.3) 知 ， 对 正则 
方程 的 任 一 组 解 有 


b 
pe a mn 
dt ( D> 加 (7.3.11) 


注意 : 这 里 (7.3.11) 中 Gi, Gu, ?5 和 认 ; 是 正则 方程 的 任 一 组 解 , 故 不 必 满足 (7.3.6) 
式 ,此 事实 以 及 类 似 的 并 :iai = 0, 开 ?-; 8; = 0， 工 2 75 = 0 不 必 成 立 同样 对 后 
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面 的 (7.3.12)~(7.3.14) 也 是 对 的 . 从 (7.3.4) 有 
LE Se 
oY = 局 一 包 += 全 3 — 本 (7.3.12) 


更 进一步 ， 将 (7.3.2), (7.3.3), (7.3.4) 和 (7.3.5) 分 别 除 以 abc,bc,ac 和 c, 然后 将 所 
得 到 的 第 一 个 方程 与 最 后 一 个 方程 相 加 再 减 去 中 间 两 个 得 到 


b a a b 
i 要 
到 73.13) 
Sel i 


Fr i=1 j=1 
从 (7.3.2) 有 ; 
D+ 4 (7.3.14) 
i=1 j=1 i=1 j=1 
从 (7.3.11)~(7.3.14) 说 明了 线性 函数 
i — Qu + Ti ~ Te, 对 所 有 i 关 考 (7.3.15) 
Bi—B,t+7T.; -TT , 对 所 有 7 去 久 ， (7.3.16) 
天 全 15 一 元 一) 十 可 .， 对 所 有 i, 旋 (7.3.17) 
0 b 
n+l Doti DB+7. (7.3.18) 
i=1 j=1 
都 是 可 估 的 ， 这 里 
Le 1 b 于 a a 1 a bb 
ek T= a 1. 


下 面 我 们 对 这 些 可 估 函 数 再 作 进一步 分 析 ， 以 便 从 中 找 出 ab 个 线性 无 关 的 可 估 函 
数 (因为 对 模型 (7.3.1), 设计 阵 的 秩 为 cb, 所 以 一 个 线性 无 关 的 可 估 函 数组 最 多 只 
含有 ob 个 可 估 函 数 ), 不 难看 出 (7.3.15) 中 的 每 个 可 估 函 数 皆 为 如 下 a 个 函数 


Qt i=1,2,.,0 (7.3.19) 


中 的 两 个 函数 之 差 ， 于 是 其 中 只 有 a 一 1 个 是 线性 无 关 的 . 类似 地 ， (7.3.16) 中 的 
每 个 可 估 函 数 皆 为 个 函数 


Bi+T;, j=1,2,.…,b {7.3.20) 


中 的 两 个 函数 之 差 ， 因 而 其 中 也 只 有 6b 一 1 个 是 线性 无 关 的 . 再 看 (7.3.17), 虽然 这 
里 有 ab 个 可 估 函 数 ， 但 它们 满足 


b 
D6 =0, i=,b, D6 =0, ihe (7321) 


i=1 er 
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这 些 条 件 中 有 a + 一 1 个 是 独立 的 . 于 是 (7.3.17) 中 也 只 有 ab 一 (a+b 一 1)= 
(a 一 1)(b 一 1) 个 线性 无 关 的 可 估 函 数 . 不 妨 取 55 (i= 1,2,…,a-1, j= 1,2,.…,b-1). 
至 此 ， 我 们 总 共有 ab 个 线性 无 关 的 可 佑 函数 ， 它 们 构成 了 可 估 函 数 的 一 个 极 大 线 
性 无 关 组 . 因此 任 一 个 可 估 函 数 都 可 以 表示 它们 的 线性 组 合 .根据 Gauss-Markov 
定理 ， 对 任 一 可 估 函 数 ， 将 未 知 参数 用 其 任 一 组 LS 解 (7.3.7)~(7.3.10) 代替 ， 即 得 
到 该 可 估 函 数 的 BLU 估计 : 综合 上 述 讨 论 ， 我 们 得 到 : 
定理 7.3.1 ”对 有 交互 效应 的 两 向 分 类 模型 (7.3.1), 下 列 ab 个 函数 构成 了 极 
大 线性 无 关 的 可 估 函 数组 
iontT Ny) = 一 (7.3.22) 
Bi-BirtTi—T+); j=l,b—l, (7.3.23) 
65 全 一 一 Ti+ bl (24) 
a 6 
pt +7.. (7.3.25) 
i=1 j=1 
这 些 可 估 函 数 具 有 明显 的 实际 意义 ， 从 关系 式 jij = 十 ai++ ;十 ii 可 以 看 
出 ， 当 ?5 闫 0 时， as 并 不 能 反映 因子 水 平 4; 的 优 劣 ， 因 为 因子 水 平 4; 的 优 劣 
还 与 因子 B 的 水 平 有 关 . 如果 对 因子 B 的 5 个 水 平 求 平均 ， 得 到 


b 
FE. rtrd 十 地. ， 
这 个 量 是 在 因子 B 的 诸 水 平 求 平均 的 意义 下 ， 对 因子 水 平 4 优 劣 的 度量 ， 类 似 
地 ， 有 
Fi+D: 一 六 十 aa+1 十 2 + it). ， 

j=1 
将 上 面 两 式 相 减 即 得 (7.3.22). 因此 ， 可 估 函 数 (7.3.22) 就 是 在 对 因子 B 的 诸 水 平 
求 平均 的 意义 下 ， 对 因子 水 平 A; 和 4i+l 的 效应 差异 的 度量 . (7.3.23) 实际 意义 
与 (7.3.22) 完全 相似 . 

(7.3.24) 的 实际 意义 可 从 如 下 两 方面 去 看 . 如 果 考 虑 了 参数 约束 (7.3.6), 对 一 切 

证 户 则 55 = Xz, 于 是 它们 就 是 交互 效应 . 另 一 方面 , 若 b = 0, 则 i; = a ne 
代入 模型 (7.3.1), 得 


Yijk (p—T..)+ (mt+ Ti) + (By+7.;) + eijk 


H+ + + ee, (7.3.26) 


lp ll 


其 中 
大 =p—7., of = a +1., BY = Bj+7.; . 
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于 是 (7.3.26) 就 是 一 个 无 交互 效应 的 两 向 分 类 模型 .这 也 说 明了 55 度量 了 4; 和 
Bj 的 交互 效应 . 

至 于 (7.3.25), 它 是 在 总 平均 py 上 加 了 些 与 i,j 都 无 关 的 量 ， 它 还 是 总 平均 . 这 
是 因为 模型 (7.3.1) 以 及 一 般 的 任 一 方差 分 析 模型 ， 总 平均 无 实际 意义 ， 它 只 是 一 
个 度量 的 起 点 . 现在 在 4 上 增加 了 一 些 与 i,j 都 无 关 的 量 ， 只 表明 度量 的 起 点 发 生 
了 改变 

7.3.2 ”假设 检验 


从 参数 估计 的 讨论 我 们 看 到 ,对 有 交互 效应 的 两 向 分 类 模型 ， 由 于 交互 效应 的 
存在 ， ws 并 不 能 反映 因子 水 平 4 的 优 劣 ， 因 为 因子 水 平 4; 的 优 劣 还 与 因子 B 
的 水 平 有 关 . 对 不 同 的 B;, 4i 的 优 劣 也 不 相同 ， 因 此 ， 对 这 样 的 模型 ， 单 纯 检验 
ao =… 二 Qa = 0 与 检验 fi =… = Ps =0 都 是 没有 实际 意义 的 .然而 一 个 重要 
的 检验 问题 是 交互 效应 是 否 存在 . 

1. 交互 效应 是 否 存在 的 检验 

这 就 是 检验 假设 :Yj = 0 (i= 1,2,…,a， j= 1,2,…,b). 但 5 不 是 可 估 函 
数 ， 根 据 上 段 的 讨论 ， 我 们 可 以 改 为 检验 一 个 等 价 的 假设 


Hi: b=0, i=1,2,.…,a j=1,2,..,b. 
从 正则 方程 (7.3.2)~(7.3.5) 以 及 LS 解 (7.3.7)~(7.3.10) 容易 算出 回归 平方 和 


RSS(p,a, B,7) 


a b a b 
= By + Dy th Dy + Dv. 
i=1 j=1 i 


i=1 j=1 


2 Bo Dt (7.3.27) 


UL 


残 差 平方 和 为 


MM- 
MH。 


SS。 = Wk — RSS(p, a, ,7) 


i 
上 上 
四 


1 
wi 
[wb 


ES 


1 a b 
22 声 . 


这 1 j=1 


DD ry;.), (7.3.28) 


i=1 j=1 k=1 


其 自由 度 为 abe ab = ab(c 一 1). 如 果 c = 1, 即 对 4 与 B 的 每 个 水 平 组 合 (文献 
中 常 称 为 一 个 格子 cell) 只 有 一 个 观测 ， 在 交互 效应 存在 的 情况 下 ， 残 差 平方 和 的 


加 


Cl 


Ca 


上 


87.3 两 向 分 类 模型 (交互 效应 存在 ) 221 . 


自由 度 为 0, 这 时 我 们 只 能 作 估 计 而 不 能 作 检 验 ， 但 检验 对 方差 分 析 来 讲 是 不 可 缺 
少 的 . 所 以 在 交互 效应 存在 的 情形 ， 我 们 要 求 每 个 水 平 组 合 的 重复 观测 数据 个 数 
c> 1. 若 c> 1l,c2 的 无 偏 估计 为 


SS 和 
= 7.3.29 
Cs (73.29) 


在 假设 所 下 ， 模 型 (7.3.1) 化 为 无 交互 效应 的 两 向 分 类 模型 ， 应 用 87.2 的 结果 ， 
此 时 的 回归 平方 和 为 


RSS(i av 有) = 又 + ( 宇 关 - 呈 )+ (全 - 基 ) ; (7.3.30) 
i=1 


j=1 


结合 (7.3.27), 得 到 平方 和 


SSm = RSS(p,a, Bb,”y)— RSS(p,a, 8B) 


lv ¥ 和 到 到 
加 (Es = 划 一 位 be 一 茶 ) (和 过 加 
如 
= DD (Go 一 到 
i=1 j=1 k=1 
a b [3 a 6 c 
-DD D9) DD. -9.). (7.3.31) 
i=1 j=1 k=1 i=1 j=1 k=1 


根据 直观 意义 , 这 三 项 分 别 为 格 间 平方 和 , 行 间 平方 和 与 列 间 平方 和 .后 面 将 会 看 
到 行 间 平方 和 与 列 间 平 方 和 也 就 是 因子 4, B 的 平方 和 ， 我们 称 SSw， 为 交互 效应 
平方 和 ， 也 常 记 为 SS4xp. 此 因 SSm 是 由 于 交互 效应 引起 的 观测 数据 变 差 平方 
和 .不 难 证 明 
SS4xB = > 》 Dj —D. -y+9.) . 
这 1 j=]1 k=1 

它 的 自由 度 等 于 假设 Hi 所 含 独立 方程 个 数 (a 一 1)(6 -1). 根据 85.1, 检验 假设 所 
的 下 统计 量 为 

Ssm /l(a ~ D6— 1)] _ ssaxa/l(e — DG- 

Sse/lablc—1)] SS./lablc—1)] 

当 负 成 立时 ， FaxB ~ Fta_1)(s-1),ab(e_1) . 对 给 定 的 显著 性 水 平 a, 车 FaxB < 
人 a-(6-yabte-)(Q), 则 我 们 认为 因子 4 与 因子 B 的 相互 效应 不 存在 ， 这 时 就 可 
以 回 到 上 节 内 容 去 检验 因子 4 和 B 的 各 水 平 效应 的 差异 . 


Fax = 


(7.3.32) 
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2. 关于 因子 效应 的 检验 

前 面 已 经 指出 ， 对 有 交互 效应 的 两 向 分 类 模型 ， 由 于 交互 效应 的 存在 ， a 并 
不 能 反映 因子 水 平 4; 的 优 劣 ， 这 是 因为 因子 水 平 4 的 优 劣 还 与 因子 B 的 水 平 有 
关 . 对 不 同 的 B;, 4; 的 优 劣 也 不 相同 .这 时 ， 我 们 只 能 退 而 求 其 次 ， 在 对 因子 水 
F Bi 求 平均 的 意义 下 ， 比 较 因子 4 的 诸 水 平 优 劣 、 对 因子 B 也 是 一 样 ， 于 是 ， 
我 们 讨论 如 下 两 个 假设 : 

有 ot = Qa + Ta. 

Ha P+T1==P + 
的 检验 问题 .由 定理 7.3.1, 有 s 入 都 是 可 检验 假设 . 

车 Hs 成 立 ， 则 模型 (7.3.1) 可 改写 为 如 下 约 简 模型 ， 


. 


Vijk = A+ (oit+Ti) + Bi;+ (Yi — Ti.) + eis 
= "+B + 和 +ei, (7.3.33) 


其 中 j=j+ai+T， 忆 == 忆 ，5 = i 一 Ti. 对 任意 的 和 1 =0, 当 
Hz 成 立时 ， Jv* 与 i 无 关 ， 应 用 Lagrange 乘 子 法 ， 极 小 化 辅助 函数 


DD 3 和 人 -+ De # 


i=1 j=1 k=1 i=l j=1 


这 里 Xi 为 Lagrange 乘 子 系数 .将 上 式 对 J*，B;}, 5 求 导数 ， 并 令 其 等 于 0, 得 到 
正则 方程 


abcp” t+e 守 守 =y.， 


i=1 j=1 


acp* + acB} Pe (7.3.34) 
Ee 
cp +eB + os + N= yi.. 
再 应 用 本 ;1 8; = 0， 沁 1% = 0, 很 容易 求 到 LS 解 
fr =D.., 证 = 页. -7.， 天 申 
条 = 


除了 没有 Gi 之 外 ， 它 们 与 (7.3.7)，(7.3.9) 和 (7.3.10) 完全 一 样 ， 于 是 对 约 简 模型 
(7.3.33), 回归 平方 和 为 


b 
Ros, pr) = + ys + 


i1 j=1 
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结合 (7.3.27), 得 到 平方 和 
SS = RSS(p,a,8,7) — RSS(py°, BT) 


a a b ¢ 
= 6 n= -5.). (7.3.36) 
i=1 


i=1 j=1 k=1 
它 正 是 (7.3.31) 中 的 第 二 项 ， 即 行 间 平 方 和 ， 其 自由 度 等 于 Hz 所 含 独立 方程 个 数 
4 一 1. 从 (7.3.36) 可 以 看 出 ， SS 是 因子 4 的 水 平 变化 所 引起 的 观测 数据 变 差 平 
方 和 ， 因 此 可 以 称 为 因子 4 的 平方 和 ， 有 时 也 记 作 SS4. 根据 85.1, 可 得 假设 2 
的 下 检 验 统计 量 


_ SSm/lae-1) _ SSa/(a—1) 
4 Sse/ablc -1)™ SSe/ab(e 1) 


车 有 为 真 ，Fa ~ Fa_1ab(e-1) . 
用 完全 同样 的 方法 ， 可 以 证 明 对 于 H3 有 平方 和 


(7.3.37) 


b 


好 a b ec 
SS 3 - 态 =DDD.-D.), 


j= i=1 j=1 k=1 


其 自由 度 为 6- 1. 同样 的 理由 ， 把 SSm 称 为 因子 B 的 平方 和 ， 记 为 SSa, 它 是 
(7.3.31) 中 的 第 三 项 ， 即 列 间 平方 和 ， 假设 Hs 的 FF 检验 统计 量 


_ SSm/tb 一 1) _ SSs/(b-1) 
SSe/ab(c-1) SSe/abc 二 1 


车 Hs 为 真 ，FB ~ Fy_1at(e-1) . 
经 常 把 以 上 主要 计算 结果 列 成 如 下 的 方差 分 析 表 ， 如 表 7.3.1. 
表 7.3.1 “有 交互 效应 两 因素 方差 分 析 表 


Fs (7.3.38) 


方差 源 | ”自由 度 平方 和 均 方 五 什 
因子 A| a-l SSA MSa4 =SSa/(a—1) Fa= We 
因子 已 | 5-1 SSe MSB = SSa/(b— 1) Fa= 
交互 效应 


(Ax*B)(a-D(b-D)| SSaxe |MSaxa=SSaxs/(a— D)(b-1)|Faxs= 2 全 
误 差 | ab(c 一 1) SS。 aMSe = SS./ab(c — 1) | 


wn 
2 3 
总 和 | abe-1 | 区 - 嗓 


jk 


关于 置信 区 间 ， 基 本 做 法 与 前 面 诸 节 类 似 ， 这 里 就 不 再 讨论 了 . 
如 果 对 于 因子 4,B 的 水 平 组 合 (4i, B;) 下 ， 重 复 观 测 数据 的 个 数 为 nj(i = 
9 了 一 1 且 m5 不 全 相同 , 这 时 两 向 分 类 模型 (7.2.1) 和 (7.3.1) 称 为 非 
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平衡 的 . 对 于 非 平衡 的 方差 分 析 模 型 ， 原则 上 我 们 仍 可 以 用 前 面 的 方法 来 处 理 . 但 
是 对 于 可 估 函 数 的 表征 及 检验 统计 量 等 问题 ， 一 般 难以 给 出 像 平衡 情形 那样 简洁 
的 讨论 ， 所 以 ， 对 一 个 一 般 的 非 平 衡 方差 分 析 问 题 ， 我 们 只 能 采取 34.1 关于 线性 
模型 的 一 般 理 论 和 方法 去 处 理 ， 关 于 非 平衡 方差 分 析 模 型 的 讨论 请 参看 文献 [60]. 

例 7.3.1 为 了 考察 某 种 电池 的 最 大 输出 电压 受 板 极 材料 与 使 用 电池 的 环境 
温度 的 影响 ， 材 料 类 型 (因子 4) 取 3 个 水 平 ( 即 3 种 不 同 的 材料 ), 温度 也 取 3 个 
水 平 ， 每 个 水 平 组 合 下 重复 4 次 试验 ， 所 得 数据 如 表 7.3.2. 


表 7.3.2 ”电池 试验 数据 


温度 B 
Ea 
15° 25° 35° 
130 155 34 40 20 7 | 
1 | 174 180 80 75 82 58 1098 
A (639) (229) (230) 
材 150 188 136 122 25 70 
料 2 | 159 126 106 115 58 45 1300 
类 (623) (479) (198) 
型 138 110 174 120 96 ”104 
3 | 168 160 150 139 82 60 1501 
(576) (583) (342) 
yj. 1838 1291 770 3899 = y.. 


分 析 ”数据 表 括 号 中 的 数据 是 诸 yij.， Ee a=3, 了 =3,c=4. 诸 平 
方 和 计算 如 下 : 


3899)? 

SSr = p32 怪 =( (130)2 + (155)2 十 .二 (60)2 ( = 81063.64， 
j= j=1 k=1 
| 2 1 2 

S54 = 了 于 一 总 = 吝 [(i098)?+(1300)?+(1501)] - Gon) = 6767.06, 
Ek 

z 2] (3899)? 

p= 人 和 1 [(1838): + (1291)? + (770] 一 36 全 = 47535.39, 

站 
a b vy 

SS46 = SD 二 绽 -SS4 一 SSa 
1=17=1 ¥ 


一 6767.06 — 47535.39 


U 


¥ [(639)? + (229)? + .+ (342)] — Ceo) 
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13180.44, 
SST — SS4 — SSBp — SS4p = 81063.64 


SS。 


一 6767.06 — 47535.39 — 13180.44 = 13580.75. 
把 上 述 结果 填 入 对 应 的 方差 分 析 表 ( 表 7.3.3): 
表 7.3.3 方差 分 析 衣 


方差 源 自由 度 平方 和 均 方 书 值 
因子 4 | 6767.06 3383.53 Fa = 6.73 
因子 B 2 47535.39 23767.70 Fs = 47.25 
交互 效应 
(4xB) 4 13180.44 3295.11 FaxB = 6.55 
误 差 27 13580.75 502.99 

上 
总 和 35 81063.64 


由 于 肥 ,27(0.05) = 3.35, Fa,27(0.05) = 2.73, 所 以 因子 4, 因子 BB 以 及 交互 效应 
4 x B 当 显著 性 水 平 为 a = 0.05 时 都 是 显著 的 . 

前 面 几 节 我 们 分 别 讨论 了 单 向 分 类 模型 ， 两 向 分 类 模型 .如果 试验 中 所 含 的 因 
素 多 于 两 个 ， 则 需要 多 向 分 类 模型 ， 例 如 ， 假 设 有 三 个 因 于 4，B,，C, 水 平 数 分 别 
为 a, b,c. 在 4 BC 之 间 可 能 还 存在 着 交互 效应 , 于 是 ,在 因子 水 平 组 合 A;， B; 
和 Ck 的 第 1 次 观测 wjkt 可 以 分 解 为 

Yiu = p+ ot ht Yt (ob)i + (B77) + (oy)is + (aBy)isk + eijpt, (7.3.39) 

t= ,a j=,b, k=1,..,c l= 1 ,mijk 

其 中 p，ai，B;， Ys 的 意义 和 前 面相 同 . (aB)s; 表示 水 平 组 合 4A; 和 Bi 的 交互 效 
应 ， 余 类 推 ， (aBYy)ijk 表示 水 平 组 合 4;，B; 和 Cx 的 交互 效应 . 一 般 称 (aB)ij 为 
一 级 交互 效应 ， 称 (aB7)sjx 为 二 级 交互 效应 . 模型 (7.3.39) 称 为 三 向 分 类 模型 ， 仿 
此 ,读者 可 以 写 出 四 向 、 五 向 分 类 模型 .原则 上 ， 我 们 可 以 把 模型 推广 到 任意 向 分 
类 模型 .对 于 这 些 模 型 的 统计 分 析 ， 其 原理 和 具体 方法 与 前 面 几 节 基 本 相同 有 了 
前 面 的 基础 ,原则 上 我 们 能 够 处 理 含 任意 多 个 因素 的 方差 分 析 模 型 的 统计 分 析 . 于 
是 ， 对 这 些 模 型 的 统计 分 析 我 们 不 再 详细 讨论 了 . 


87.4” 套 分 类 模型 


前 面 所 讨论 的 两 向 分 类 模型 有 一 个 特点 ， 就 是 因子 4 和 B 的 任意 两 个 水 平 都 
可 以 相遇 , 这 时 因子 4 和 B 处 于 交叉 状态 , 于 是 这 类 模型 又 称 为 交叉 分 类 模型. 但 
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是 在 一 些 情 况 下 ， 因 子 4 和 B 并 不 是 所 有 的 水 平 都 能 相遇 例如 在 化 工 试验 中 ， 
要 比较 甲乙 两 种 催化 剂 ， 同 时 还 要 选择 每 种 催化 剂 所 适应 的 温度 . 往往 不 同 的 催 
化 剂 所 要 求 的 温度 不 同 ， 例 如 催化 剂 甲 可 能 要 求 的 温度 高 一 些 ， 而 催化 剂 乙 则 要 
求 的 温度 低 一 些 . 因此 在 进行 试验 时 ， 对 不 同 的 催化 剂 温 度 水 平 的 选择 就 不 一 样 ， 
如 果 对 催化 剂 甲 选 择 的 温度 是 200*C, 220*C 和 240%C, 而 对 催化 剂 乙 选择 的 温度 是 
150*C,170s*C 和 190*C, 这 时 催化 剂 甲 就 不 能 与 温度 低 的 水 平 150*C, 170*C 和 190%C 
相遇 ， 而 催化 剂 乙 就 不 能 与 温度 高 的 水 平 200*C,220*C 和 240%C 相遇 ， 我 们 称 催 
化 剂 是 一 级 因素 ， 温 度 是 二 级 因素 . 二 级 因素 像 是 套 在 一 级 因素 里 面 ,于 是 把 这 种 
安排 试验 的 方法 叫做 套 设 计 (nested design)， 对 应 的 模型 叫做 套 分 类 模型 (nested 
classification model). 刚才 的 例子 含 催化 剂 和 温度 两 个 因素 , 叫做 两 级 套 分 类 模型 , 

一 般 假设 因子 4 有 a 个 水 平 ， 且 在 因子 4 的 第 i 个 水 平 下 因子 B 有 bi 个 水 
平 ,并 记 套 在 因子 水 平 4; 的 因子 B 的 第 j 个 水 平 为 bj(i) 且 在 水 平 组 合 A; 和 Bj() 
下 重复 观测 niy 次 ， 记 yijk 为 在 此 组 合 下 的 第 上 个 观测 值 ( 见 表 7.4.1), 则 两 级 套 
分 类 模型 可 表 为 如 下 形式 : 


期生 二 下 十 时 十 故人 十 6 i=b,a, j=bb, k=1,..,nj, (7.4.1) 


这 里 J,a,eijk 的 意义 和 以 前 讨论 的 各 种 模型 都 相同 .并 假定 eijk ~ N(0,0?), 所 有 
eijk 相互 独立 ， 且 称 Bj(;) 为 水 平 Bj(s) 的 效应 . 
引入 矩阵 符号 ， 可 以 把 (7.4.1) 式 表 为 矩阵 形式 ， 即 线性 模型 的 一 般 形式 . 
些 我 们 能 够 和 前 面 几 节 一 样 把 线性 模型 的 估计 和 检验 理论 应 用 于 这 个 模型 的 统计 
分 析 . 
表 7.4.1 _ 两 级 套 分 类 模型 数据 形式 表 
因 竺 ”二 


A Az Pee | A 
Bi Bay) Ba | Ba * Bt) | … | Bi Boa) 
Yi11 Yi21 Vs Yiby1 32t1 Y2b21 Vall I Yabal 
YY 2 Yol2 Yaba2 


Vin Vi2n,s “| en， 7 Yabon,s, 


7.4.1 参数 估计 
写 出 设计 阵 X, 不 难 推 得 正则 方程 为 
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a a 
npt niat dD nid) =Y. (7.4.2) 
Et ie1 j=1 
bs 
ni H+ ni ai+》 ni 三 Wi i=1,.,0, (7.4.3) 
j=1 
nijh + nijai + nijBj() = Yi.» j= 1 ,b:, (7.4.4) 


其 中 心 = 于 ni mu. = 可 忆 和 nij. 从 正则 方程 容易 看 出 ， 只 有 (7.4.4) 所 含 
的 于 和 _1bi 个 方程 是 独立 的 ， 即 rk(X) = 兄 人 1 5; .因为 未 知 参数 有 囊 1 bi 二 a+1 
个 ， 因 此 和 前 几 节 一 样 ， 我 们 还 需 寻 找 未 知 量 间 另外 e+ 1 个 独立 方程 ， 即 所 谓 的 
边界 条 件 ， 但 对 现在 的 情况 ， 从 (7.4.4) 容易 看 到 ， 取 边界 条 件 为 


A=0， ai=0, i=1,2,.…,a (7.4.5) 
是 很 方便 求解 的 ， 由 (7.4.4) 和 (7.4.5) 解 得 


B= 绍 ， 二 (7.4.6) 
订 


它们 与 
R=0, Gi=0, i=1,2,.,4 Ca 
一 起 构成 未 知 参数 的 一 组 LS 解 . 

显然 jij = 二 +a+ Bj() (i= 1,2,…,a, j= 1,2,… ,bi) 都 是 可 估 的 ， 且 构成 了 
极 大 线性 无 关 的 可 估 函 数组 ， 容 易 证 明 ， 参 数 函数 


Bj — Bi'(d)， 对 一 切 i,j #7" (7.4.8) 


都 是 可 估 的 ， 对 于 固定 的 i, Bij(i) - Bj;'(i) 为 因子 B 的 水 平 Bi 和 BY'(i) 效应 
之 差 ， 对 本 节 一 开头 的 例子 ， 它 就 是 对 某 种 催化 剂 ， 两 种 不 同 温度 效应 之 差 . 但 
是 ai 一 aw, i 关 i 更 一 般 地 ， 任 何 形 如 > iciai 的 函数 都 是 不 可 估计 的 .如果 
bi =b, i 二 1,.,a, 即 对 因子 4 的 每 个 水 平 , 因子 B 的 水 平 数 都 相同 , 且 ni = c(i = 
,20 j= 2,b). 记 ;Bd/6=B), 则 


(ai+B)— (aa +B)), i (7.4.9) 


都 是 可 估 的 . 它 的 实际 意义 和 (7.3.22), (7.3.23) 相 类 似 . 即 在 对 因子 B 求 平均 的 意 
义 下 ,因子 4 的 两 个 水 平和 六 的 效应 之 差 . 对 催化 剂 的 那个 例子 ， (7.4.9) 就 是 
对 温度 平均 的 意义 下 ， 催 化 剂 甲 和 乙 的 效应 之 差 .容易 验证 ， 可 信函 数 (7.4.8) 和 
(7.4.9) 的 BLU 估计 分 别 为 
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好 对 一 切 ; 六 j (7.4.10) 
nj Ni’ 


和 (对 一 切 i, jb; = b, ni; =c 的 条 件 下 ) 


:=P = 
7.4.2 ”假设 检验 
我 们 首先 考虑 二 级 因子 诸 水 平 效应 是 否 相等 的 假设 ， 即 
Hi: PB)=-…=B), i=1,..,a. (7.4.11) 


根据 正则 方程 (7.4.2)~(7.4.4) 和 LS 解 (7.4.6) 和 (7.4.7), 立 得 回归 平方 和 


RSS(1, av B) =Y. Rr Dw ES 3 3 By = 直 守 六 


=1 j=1 1 i=1 j=1 


残 差 平方 和 


DR RSS(p, a, 8) 
1k=1 


D> D8 3 六 局 
k=1 


j i=1 j=1 
[LN 

= DD Dwr -Ds). (7.4.12) 

其 自由 度 等 于 nm, 这 里 m = 部; 当 假 设 后 成 立时 ， Pt 只 与 ?有关 与 7 
无 关 ， 用 PB; 记 之 .于 是 约 简 模型 为 

Vijk = k++asthitesk +ad + eis, (7.4.13) 


这 里 w=, a? = ai + fi, 这 是 一 个 单 向 分 类 模型 . 应 用 87.1 的 结果 ， 立 得 回归 平 
方 和 
i 
Rss(p,a) = DA. (7.4.14) 
i=1 we 
结合 (7.3.13), 得 到 平方 和 
SSam = ae B) — RSS(p°, ao) 


= 
- 志 守 a 坊 . St (7.4.15) 


3 dm j=l 
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它 是 二 级 因子 B 的 水 平 变化 所 引起 的 观测 数据 变 差 平方 和 ， 故 称 为 因子 B 的 平方 
和 ， 也 记 为 SSe, 其 自由 度 等 于 假设 且 所 含 独立 方程 个 数 m 一 a, 这 里 m = ;bi 
根据 85.1, 检验 的 下 统计 量 为 

_ SSm/(m—a) 
”55o/ —m) 
当 到 为 真 时 ， ~ Fn_a, nm. 

下 面 讨论 一 级 因子 4 诸 水 平 效 应 相等 性 检验 . 因为 ma = … = aa 是 不 可 检验 
假设 ， 我 们 退 一 步 考虑 对 因子 B 诸 水 平平 均 的 意义 下 ， 因 子 4 各 水 平 效应 相等 性 
检验 ， 为 简单 起 见 ， 假 设 因子 B 的 水 平 bi 都 相等 ， 即 假定 b; = b(i = 1,…,a), 又 
设 对 一 切 i,j, nij = c, 则 问题 归结 为 检验 假设 

Ha: atBo) = …=aa 十 厅 () ， (7.4.17) 
由 (7.4.9) 处 的 讨论 知 ， 2 是 可 检验 假设 ， 对 bi 或 ni 不 都 相等 的 情形 ， 读 者 可 
参阅 文献 [98]. 


若 到 成 立 ，ai+(i) 与 i 无 关 . 采用 与 $7.3 类 似 的 方法 ， 把 模型 (7.4.1) 改 
写 为 


a (7.4.16) 


Yijk = H+ (ait+B)) + (Pi) — BG)) + eijk 
= J + Bi) + ek, (7.4.18) 
其 中 
情 =A+ai+ 厅 0 它 与 i 无 关 ， Bj) = Bi) — Bs) 
满足 部 ;1 p; = 0 应 用 Lagrange 乘 子 法 ， 极 小 化 辅助 函数 
a b we a b 
2 Dr bi) +2D DN ， 
i=1 j=1 k=1 i=1 j=1 
可 以 求 出 je 和 [a 的 约束 LS 解 ， 正 则 方程 为 
a b 
abcB* + cD DB) = ， 
i=1 j=1 
ch +teBo to = i= a j=L,,b. 
;i 的 约束 LS 解 为 
B= i bb (7.4.19) 
根据 这 些 结果 ， 对 约 简 模型 (7.4.18), p*， Bi 等 的 回归 平方 和 为 
a [2 a b 
Rss Po) = Pry + DD Bw = + Dy 1.420) 


1 j=1 1 j=1 
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于 是 从 (7.4.12) 和 (7.4.20) 算得 平方 和 
SSmm = RSS(p, 0,8) -RSSO 6°) 


» 2 


a 2 
= DD -57.). (7.4.21) 


i=1 j=1 k=1 
从 (7.4.21) 可 以 看 出 ，SSm 是 因子 4 各 水 平 下 所 有 观测 值 的 平均 对 总 平均 的 变 差 
平方 和 ， 故 也 称 SSm 为 因子 4 的 平方 和 ， 相 应 地 也 记 为 SS4. 很 明显 ， 这 个 平方 
和 的 自由 度 为 a 一 1, 根据 85.1, 检验 假设 Hz 的 下 统计 量 为 
_ SSm,/(a~1) 
”Sse/ab(c—1)’ 
当 Hs 为 真 时 ， Fa ~ Fa ob(e-1) : 
例 7.4.1 ”比较 甲 ， 乙 ， 丙 ， 于 四 种 催化 剂 ， 每 种 催化 剂 要 求 的 温度 范围 不 完 
全 相同 .对 每 种 催化 剂 ， 温 度 都 取 了 三 个 水 平 (*C)， 


(7.4.22) 


甲 (41) 50, 55, 60, Z (42) 70, 80, 90, 
丙 (4s) 55, 65, 75, 丁 (44) 90, 95, 100 
观测 数据 如 表 7.4.2. 


表 7.4.2 催化剂 数据 表 


温度 催化剂 
B1 


解 ” 对 此 例 a=4,6=3, c=2, ni =6, nj=8, n. =24, Dibi = 12. 


日 


s a 
SSp, = yy ./2— Dy?./6 = 136866 - 136062 = 804(= SSB), 


i=1 j=1 i=1 


其 自由 度 为 8. 


a a b 
SS 由 = Dy./6— DD 内 /24= 1960.5(= SS4)， 
rt 


i=1 j=1 


其 自由 度 为 3. 残 差 平方 和 


a Bb ¢e | 


SS. = DD D-DD ./2=64, 


1 j=1 k=1 i=1 j=1 
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其 自由 度 为 12. 将 计算 结果 列 于 表 7.4.3 中 ， 
表 7.4.3 方 整 分 析 表 


方差 源 自由 度 平方 和 均 方 F 值 
B 8 804.0 100.5 
al | 五 =19.0 
催化 剂 (4) | 3 1960.5 653.5 | 
Fy =122.5 
误 差 12 64.0 5.3 | 
总 和 23 2828.5 


从 表 中 可 以 看 出 ， Fi = 19.0 > Fs,12(0.01), FF = 122.5 > Fa,12(0.01). 所 以 在 
显著 性 水 平 a = 0.01, 我 们 拒绝 两 个 原 假设 ， 即 对 这 四 种 催化 剂 ， 温 度 不 同 水 平 的 
差异 是 显著 的 ， 并 且 就 三 种 温度 平均 说 来 , 四 种 催化 剂 的 差异 也 都 是 显著 的 .要 进 
一 步 搞 清楚 ， 对 固定 的 催化 剂 是 哪些 温度 之 间 有 差异 ， 以 及 在 四 种 催化 剂 中 ,哪些 
催化 剂 之 问 有 显著 的 差异 ， 需 要 做 Bj(i) 一 启 ,， 了 天 了 7 和 (as+BO) 一 (af ++Bi)) 
的 同时 置信 区 间 ， 感 兴趣 的 读者 可 以 把 这 些 工 作 作为 练习 . 

在 例 7.4.1 中 ， 如 果 除 了 催化 剂 和 温度 之 外 ， 还 考虑 反应 压力 而 且 对 不 同 的 
温度 所 需要 的 反应 压力 也 不 完全 相同 ,这 样 试验 就 需要 先 按 催化 剂 分 类 ， 然后 在 每 
一 类 中 再 按 温度 分 类 ， 最 后 按压 力 分 类 . 这样 就 形成 了 压力 套 在 温度 各 水 平 内 ， 而 
温度 又 套 在 催化 剂 的 各 水 平 内 的 状况 ,这 就 是 三 级 套 分 类 试验 , 其 中 催化 剂 是 一 级 
因素 ， 温 度 是 二 级 因素 ， 反 应 压力 是 三 级 因素 .三 级 套 分 类 模型 一 般 形式 为 


Yijkt = p+ ait Bj(i) + Yk(ij) + Eijk » (7.4.23) 


i=bg j=bb, k=bny, l= ,ny . 


如 果 把 三 个 因素 分 别 记 为 4，B，C, 则 yijrt 就 是 在 水 平 组 合 hi， Bi(i), Ck(ij) 下 
的 第 1 次 观测 值 。 (7.4.23) 中 p，as，Bjti) 的 意义 与 上 节 意 义 相 同 ， ytiy) 是 水 平 
Ck) 的 效应 ， 即 因子 4 在 水 平 4i, 因子 B 在 水 平 Bj(), 因子 C 的 第 个 水 平 
Ck(ij) 的 效应 . 

更 一 般 地 ， 可 以 有 任意 上 级 套 分 类 模型. 

有 时 在 一 些 试验 中 , 一 部 分 因子 处 于 交叉 状态 ， 而 另 一 些 因子 处 于 镶 套 状态 ， 
这 时 就 产生 了 混合 分 类 模型 例如， 试验 者 考虑 三 个 因子 4A，B， C 的 试验 ， 如 果 
4 和 召 是 交叉 的 ， 而 因子 C 套 在 因子 B 内 ,假设 诸 因 子 没有 交叉 效应 ， 则 这 个 试 
验 的 模型 为 


Vijkt = p+ st Bi + Yk(G) + Eijkt » 


i=bee j= bb k=,e, =m. 
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这 就 是 一 个 混合 分 类 模型 . 

关于 这 些 模 型 的 统计 分 析 , 本质 上 与 两 级 套 分 类 模型 相同 ,此 处 不 再 详细 讨论 
了 ， 读者 可 以 把 它们 当做 练习 去 完成 . 至 于 其 它 试验 设计 模型 的 统计 分 析 ， 读 者 可 
参阅 文献 [2]. 


$7.5 ”误差 方差 齐 性 及 正 态 性 检验 


在 前 面 所 有 模型 假设 检验 问题 的 讨论 中 ， 我 们 都 假定 观测 误差 向 量 e 满足 : 
(1) 诸 分 量 相互 独立 ; (2) 正 态 性 ， (3) 方差 齐 性 ( 即 每 个 观测 值 的 方差 相等 ). 如 果 
某 一 条 假设 不 满足 的 话 ， 方 差分 析 的 检验 统计 量 一 般 不 会 服从 下 分布， 这 时 方差 
分 析 的 结果 就 不 可 靠 ， 甚 至 会 导致 错误 的 结论 .一般 说 来 ， 对 一 个 具体 问题 ， 这 些 
假设 是 否 满足 并 不 是 明显 的 . 我 们 容易 理解 ， 只 要 在 试验 过 程 中 随机 化 得 到 很 好 的 
实现 ， 试 验 结果 的 相互 独立 性 一 般 是 容易 满足 的 ， 但 是 ， 因 变量 (响应 变量 ， 即 指 
标 ) 的 方差 齐 性 或 正 态 性 却 不 然 ， 所 以 本 节 我 们 讨论 后 两 种 假设 的 检验 . 


7.5.1 方差 齐 性 检验 


车 把 单 因素 方差 分 析 的 每 个 水 平 下 所 有 可 能 的 观测 当做 一 个 总 体 ， a 个 水 平 
的 实际 试验 观测 值 相 当 于 从 a 个 总 体 抽取 的 a 个 样本 ， 单 因素 的 方差 分 析 问 题 是 
在 各 总 体 方差 相等 的 条 件 下 分 析 各 总 体 的 均值 的 变化 . 假若 各 总 体 的 方差 不 等 ， 它 
将 对 均值 的 分 析 结 果 产生 一 定 的 影响 ， 因 此 本 节 要 介绍 如 何 检验 多 总 体 样本 方差 
是 否 相等 的 问题 . 通常 称 为 方差 齐 性 检验 . 下 面 我 们 不 加 证 明 地 介绍 几 种 常用 的 方 
法 ， 关 心 证 明 的 读者 可 参看 文献 [48] 和 [56] 等. 

对 单 向 分 类 模型 ， 若 误差 方差 不 相等 ， 则 模型 可 表 为 


Yij = H+ i+ es, 
诸 eg 相互 独立 ， ef ~ N(0,0?)， i=l,,0 j= 
(1.5.1) 
那么 我 们 要 检验 的 假设 为 


Ho of=02=...=02. (7.5.2) 
设 第 :个 水 平 的 误差 平方 和 为 SS = 品 (wj 一 更) 在 正 态 性 假设 下 ， SS。, 是 服 
从 ox2,_1 的 变量 . 记 MS。, = SSc,/(n; 1) 为 其 均 方 . 


1. Levene 检验 法 
Levene 检验 法 只 能 用 于 平衡 数据 ， 即 在 每 个 水 平 组 合 下 重复 观测 数 相间 ， 记 
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第 i 个 水 平 下 第 7 次 观测 的 残 差 为 

65 = Yj — 让 
令 

ei 一 (65)2， 到 1 j= ,Nn. 
则 


Mk: ， 


把 si; 看 做 观察 值 ， 其 页 信 为 cz(n 一 1)/n, 当做 单 因素 试验 数据 处 理 ， 计 算 组 内 和 
组 间 平 方 和 


i=l a j=1,..,n. 


SS 一 守 守 (ey -六 


Wm (ey 
SS 组 间 = "EE). 
统计 量 
r= 和- um (7.5.4) 
组 内 


在 原 假设 Ht 成立 的 条 件 下 ,全 Fl), 当 (7.5.4) 的 工 的 值 大 于 Fo (a) 
值 时 ， 我 们 将 拒绝 Ho, 认为 各 水 平 间 的 方差 不 全 相等 

Levene 检验 法 对 总 体 分 布 偏离 正 态 分 布 有 较 好 的 稳健 性 ， 值 得 注意 的 是 ， 在 
用 Levene 法 时 ， 一 般 要 求 重复 次 数 n 不 要 太 小 ， 一 般 要 大 于 3 次 ， 如 对 SAS 软 
件 ， 重 复 次 数 小 于 3 次 时 ， 一 般 系统 不 也 计算 输出 Levene 检验 结果 . 

2. 最 大 下 比 法 (Hartley 法 ) 

原则 上 ， Hartley 检验 法 也 可 用 于 非 平衡 情形 (由 Hartley 在 1950 年 建立 的 )， 


这 个 方法 所 用 的 统计 量 为 
_ maxi(MS.。,) 


Fmax = min (MSe)’ (7.5.5) 
称 为 最 大 已 比 法 . 当 ni = nz = … = na = n 时 ， Fwax 的 临界 值 可 从 文献 [120] 


的 表 中 查 到 ， 表 中 的 人 为 参加 比较 的 方差 的 个 数 ， 即 这 里 的 水 平 数 a, 表 中 的 v 即 
为 MS。, 的 自由 度 ， 即 这 里 的 ”~ 1. 当 由 (7.5.5) 计算 的 值 超过 临界 值 时 ， 将 拒绝 
原 假 设 Ho. 
当 不 等 重复 或 a 值 较 大 时 ， 没 有 适当 的 表 可 查 ， 此 时 可 用 通常 的 已 表 ， 其 自 
由 度 分 别 由 maxi(MS。e,) 与 mini(MS。,) 所 对 应 的 自由 度 决定 ， 若 计算 的 (7.5.5) 中 
Fmax 值 没 有 超过 通常 的 下 的 临界 值 ， 更 不 会 超过 正确 的 临界 值 接受 Ho, 所 犯 的 
第 二 类 错误 的 概率 不 会 超过 正确 临界 值 的 概率 . 
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Hartley 最 大 已 比 检验 对 于 正 态 性 的 偏离 十 分 敏感 . 因此 , 如 果 桩 本 所 来 自 总 体 
的 分 布 稍微 偏离 正 态 但 方差 相等 时 ，Ho 也 会 被 拒绝 , 从 而 认为 方差 不 相等 . 因此 ， 
当 总 体 分 布 非 正 态 时 ，Hartley 最 大 FF 比 检验 不 适合 用 来 作为 方差 齐 性 的 检验 . 相 
比较 ，Levene 检验 对 总 体 正 态 性 的 偏离 不 很 敏感 , 但 是 当 总 体 服从 正 态 分 布 时 , 用 
Hartley 检验 比 Levene 检验 具有 更 高 的 功效 . ”Conover 等 (Techmometrics(1981)， 
23: 351 一 361) 对 包括 Hartley 检验 和 Levene 检验 在 内 的 各 种 方差 齐 性 检验 进行 了 
模拟 研究 ， 他 们 的 研究 表明 ， 当 总 体 分 布 严重 偏离 正 态 时 ， Hartley 检验 的 真实 水 
平 会 膨胀 ， 此 时 ， 他 们 推荐 使 用 Levene 检验 . 

3. Xx? 检验 法 (Bartlett 法 ) 

记 fc,=ni-fe= fini 一 a. 定 义 


1 { (Ss.) -和 pc- (7.5.6) 
i=]1 
gq= feln(MS.。)— 3 ln(MS。,) (7.5.7) 
11 
和 统计 量 
B =2.3026g/c. (7.5.8) 


可 以 证 明 ， 在 误差 正 态 假定 下 ， 若 Ho 成 立 ，B ~ Xx?_1. 当 假设 Ho 成 立时 ， 诸 样 
本 方差 的 观测 值 的 差别 一 般 不 大 ，9 的 值 一 般 将 很 小 (特别 当 诸 样本 方差 的 观测 什 
相等 时 ， 9 = 0). 当 假设 Ho 不 成 立时 ， 诸 样本 方差 的 观测 值 的 差别 将 较 大 ， 4 的 
值 也 将 较 大 ， 因此， 当 由 (7.5.8) 中 计算 的 B 值 大 于 x2_1(a) 时 ， 将 拒绝 机， 

Bartlett 检验 不 受 重复 数 的 限制 ( 即 每 个 水 平 下 重复 观测 的 次 数 不 必 相同 ), 但 
对 误差 非 正 态 性 是 很 敏感 的 ， 因 此 ， 误 差 偏 离 正 态 性 时 ， 不 能 使 用 这 个 方法 . 

4. 最 大 方差 检验 法 (Cochran 法 ) 

因为 Hartley 法 和 Bartlett 法 对 较 小 的 SS。, 值 很 敏感 ， 所 以 当 SS。 中 存在 一 
个 值 为 0 或 者 很 小 时 ， Hartley 法 和 Bartlett 法 均 不 能 使 用 ， 但 是 当 重 复数 n; 较 
小 时 ， 这 种 情况 是 经 常会 出 现 的 ， 下 面 介绍 的 Cochran 法 可 避免 这 个 问题 ， 但 是 
Cochran 的 方差 齐 性 检验 法 只 适用 于 等 重复 的 情形 ， 其 统计 量 为 
maxi(MSe) 

二 MS。 


C= (7.5.9) 


其 临界 值 表 可 见 文献 [38](p.579~580, 表 4). 当 由 (7.5.9) 计算 的 C 大 于 表 中 相对 应 
的 临界 值 ， 就 拒绝 方差 相等 的 零 假设 ， 认 为 方差 不 全 相等 . 
特别 当 n 较 小 时 ， 这 个 方法 在 实际 中 应 用 较为 广泛 . 
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在 SAS 软件 上 ， 对 方差 齐 性 的 检验 可 直接 利用 的 方法 除了 本 节 介 绍 的 Levene 
法 和 Bartlett 法 外 ， 还 有 BF (Brown 和 Forsythe) 法 和 Obrien 法 ， 都 是 Levene 检 
验 法 的 改进 . BF 检验 法 和 Levene 检验 法 对 总 体 分 布 偏离 正 态 分 布 有 较 好 的 稳健 
性 ， 即 对 总 体 偏离 正 态 时 不 很 敏感 ,但 是 模拟 结果 显示 ， 在 控制 犯 第 一 类 错误 的 前 
提 下 ， BF 检验 法 比 Levene 检验 法 具有 更 大 的 功效 函数 . 

当 方 差 均匀 性 的 假定 不 成 立时 ， 为 了 检验 各 水 平 下 均值 是 否 相等 可 对 数据 进 
行 适当 变换 ,使 变换 后 的 数据 具有 齐 性 的 方差 ， 一 般 来 说 , 变换 后 的 数据 可 能 不 再 
具有 原来 的 正 态 性 . 可 是 对 于 统计 推断 的 结果 来 说 , 方差 齐 性 的 要 求 远 比 正 态 性 假 
设 更 为 重要 . 因此 ,宁可 偏离 一 点 正 态 性 也 要 保证 方差 的 齐 性 . 对 于 方差 齐 性 的 经 
验 变换 ， 有 兴趣 的 读者 可 参看 文献 [38], p.215~216. 

需要 注意 的 是 ， 对 方差 齐 性 的 检验 一 般 是 针对 单 向 分 类 模型 ， 因 为 对 单 因素 问 
题 ， 我 们 研究 的 主要 目的 是 水 平 变化 对 指标 (或 观测 值 ) 的 影响 ， 而 对 两 向 (或 多 
向 ) 分 类 模型 ， 我 们 不 仅 要 比较 各 水 平 组 合 下 指标 理论 值 间 的 差异 ， 更 重要 的 是 要 
通过 数据 分 析 了 解 各 个 因素 以 及 各 因素 之 间 的 搭配 对 理论 真 值 的 影响 ， 例 如 对 两 
向 分 类 模型 (7.2.1), 如 果 仅仅 是 想 比较 所 有 a x 个 水 平 组 合 的 理论 真 值 ， 那 么 可 
把 每 个 水 平 组 合作 为 因素 ， 就 变 成 了 ab 个 水 平 的 单 因素 问题 ， 就 有 必要 先进 行 方 
差 齐 性 的 模型 检验 ， 另 外 对 两 向 (或 多 向 ) 分 类 模型 还 涉及 各 因子 效应 是 否 是 随机 
的 问题 ( 详 见 第 九 章 介绍 ). 例如 对 无 交互 两 向 分 类 模型 (7.2.1), 若 两 个 效应 中 有 一 
个 随机 效应 ， 即 混合 效应 模型 ， 例 如 a 是 随机 效应 部 分 ， 一 般 假定 ai ~ N(0,c2)， 
这 时 一 般 关心 的 主要 是 随机 效应 方差 是 否 为 0, 即 对 假设 Ho: o2 = 0 进行 检验 ; 若 
两 个 效应 都 是 随机 的 ， 即 随机 效应 模型 ， 又 设 Bi ~ N(0,c3) 此 时 要 检验 的 假设 一 
般 是 ca = 0o3 = 0 是 否 成 立 . 


7.5.2 ”正太 性 检验 
在 单 向 分 类 模型 的 方差 分 析 中 ， 记 第 i 水平 下 第 ; 次 观测 的 残 差 为 


6 = Yi — Di. 证 


其 均值 和 方差 分 别 为 


E(é;;) = 0， Var(éij) = = 


Cov(és,é63) = 
一 人 i ji. 
也 就 是 在 同一 水 平 下 残 差 方差 相同 但 不 独立 ,而 在 不 同 水 平 下 残 差 方差 不 等 ,但 是 


相互 独立 。 若 作 如 下 线性 变换 
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1 
A i i 3 
z= Yi (这 -ee 二 和 G ZE won] ， (7.5.10) 


Ld" m= ish 


将 入 = 相 ,ni 个 残 差 变 为 N 一 a 个 zl, 这 NN 一 a 个 统计 量具 有 均值 为 0, 而 


Var(zu) = o2， Cov(zi, zur) = 0. 


这 样 ， 我 们 可 把 {za, i = 1,2,…,a， 1=1,2,… ,ni 一 1} 作为 从 N(0,o?) 总 体 抽 
取 的 一 组 独立 样本 .通过 它 可 以 检验 误差 分 布 的 正 态 性 .因为 我 们 在 初等 统计 学 
中 ,对 一 组 (或 单个 变量 ) 独立 样本 正 态 性 的 检验 已 经 学 过 很 多 方法 ， 如 X2 检验， 
Kolmogorov 检验 法 ， Shapiro-Wilk 法 ， 偏 度 检验 法 ， 峰 度 检 验 法 等 等 . 

方差 分 析 法 对 总 体 分 布 偏离 正 态 分 布 有 较 好 的 稳健 性 ， 但 当 总 体 分 布 偏离 正 
态 分 布 较 大 时 ， 方 差分 析 法 对 于 检验 均值 的 均匀 性 可 能 就 不 敏感 ， 此 时 ， 使 用 非 参 
数 法 较为 合适 . SAS 软件 提供 了 对 两 个 或 多 个 总 体 进 行 比较 的 多 种 非 参 数 检验 法 . 

我 们 将 在 下 面 这 个 例子 中 举例 说 明 几 种 检验 的 计算 . 但 是 ， 大 多 数 情况 下 , 我 
们 推荐 使 用 计算 机 软件 进行 检验 ， 如 SAS 和 Matlab 软件 . 

例 7.5.1 (饲料 对 比试 验 ) ”为 发 展 我 国 机 械 化 养 鸡 ， 某 研究 所 根据 我 国 的 资 
源 情况 ,研究 用 槐 树 粉 、 首 藻 粉 等 原料 代替 国外 用 鱼粉 做 饲料 的 方法 .他们 研究 了 
三 种 饲料 配方 :第 一 种 ， 以 鱼粉 为 主 的 鸡 饲 料 ， 第 二 种 ， 以 槐 树 粉 ， 首 蒂 粉 为 主 ， 
加 少量 鱼粉 ;第 三 种 ， 以 槐 树 粉 ， 首 蒂 粉 为 主 ， 加 少量 化 学 药品 .后 两 种 是 他 们 研 
制 的 新 配方 ,为 比较 三 种 饲料 在 养 鸡 增 肥 上 的 效果 ， 各 喂养 10 只 母 锥 鸡 ， 于 60 天 
后 观察 它们 的 重量 .如 表 7.5.1 所 示 . 


表 7.5.1 。 鸡 饲料 试验 原始 数据 表 
饲料 鸡 重 ( 克 ) 
第 一 种 


1073 1058 1071 1037 1066 1026 1053 1049 1065 1051 
1016 1058 1038 1042 1020 1045 1044 1061 1034 1049 


1084 1069 1106 1078 1075 1090 1079 1094 1111 1092 


在 这 项 试验 中 ， 60 天 的 鸡 重 是 指标 ， 因 素 是 饲料 ， 在 试验 方案 中 共 取 了 三 个 
水 平 ,试验 的 目的 是 要 比较 三 种 饲料 在 养 鸡 增 肥 的 效果 上 有 何 差别 . 为 了 比较 三 种 
饲料 在 养 鸡 增 肥 的 效果 上 有 何 差别 ， 就 需要 作 均 值 间 的 比较 检验 ， 因 为 这 是 一 个 
单 因素 方差 分 析 问 题 ， 可 用 87.1 介绍 的 方法 进行 各 均值 相等 性 检验 ， 然 后 作 所 有 
两 两 均值 差 的 同时 置信 区 间 以 进一步 得 到 每 两 种 喂养 效应 间 有 无 显著 差异 ， 有 兴 
趣 的 读者 可 以 做 均值 的 检验 比较 ,但 在 此 例 中 我 们 只 介绍 方差 齐 性 检验 的 结果 . 因 
为 Bartlett 和 Hartley 检验 法 对 正 态 性 比较 敏感 ， 我 们 先 对 数据 作 正 态 性 检验 . 
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(1) 正 态 性 检验 


无 论 是 对 数据 先 按 本 节 介 绍 的 线性 变换 后 再 在 作 常规 单 变量 正 态 性 检验 , 还 是 
直接 对 数据 作 常 规 检验 , 如 使 用 x? 检验 ，Kolmogorov 检验 法 ，Shapiro-Wilk 法 , 画 
QQ 图 等 ， 都 能 得 出 这 批 数据 服从 正 态 性 的 结论 . 具体 计算 数据 略 ， 我们 只 把 计算 


结果 写 出 , 根据 正 态 性 线性 变换 (7.5.10), 得 到 残 差 数据 值 5j (i = 1,2,……,3， 
1,2,…,10) 及 其 变换 后 数据 值 za (i = 1,2,3， 


表 7.5.2 _ 残 差 及 其 正 态 线性 变换 数据 表 


j= 


1= 1,2,…,9), 如 表 7.5.2. 


第 一 种 饲料 第 二 种 饲料 第 三 种 饲料 

Ei zi zit 的 za 
1 18.1 10.6066 一 29.6985 一 3.8 10.6066 
2 3.1 一 4.4907 一 0.8165 一 18.8 一 24.0866 
3 16.1 26.2694 一 4.0415 18.2 7.2169 
4 一 17.9 一 5.5902 16.5469 一 9.8 8.2735 
5 11.1 31.9505 —9.3113 ~12.8 一 6.9378 
6 一 28.9 2.0059 一 6.9437 2.2 4.3205 
7 -19 5.4789 一 21.9154 一 8.8 一 10.2896 
8 一 5.9 一 10.2530 6.1283 6.2 一 25.1023 
9 10.1 4.1110 一 8.7490 23.2 一 4.4272 

10 -3.9 4.2 


对 zi (i = 1,2,3, 


验 ， QQ 图 检验 等 ， 都 能 接受 正 态 性 的 结论 . 
(2) 方差 齐 性 检验 


! = 1,2,…,9) 再 作 单 变量 正 态 性 检验 ， 如 Shapiro-Wilk 
检验 ， Kolmogorov-Smirnov 检验 ， Cramer-von Mises 检验 ， Anderson-Darling 检 


因为 数据 服从 正 态 分 布 且 数据 是 平衡 的 ， 故 我 们 以 上 介绍 的 四 种 检验 方差 齐 


性 的 方法 都 可 用 . 
(i) Levene 检验 法 


由 表 7.5.2 中 的 残 差 数 据 人 ji, 代入 (7.5.3) 可 算得 


2 
SS 组 内 


2 
4m 一 55 组 向 


= 134984, 组 间 


= 0.08, 


= 8193, 
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而 且 _1a(n-y) = 已 az(0.05) = 3.35. 故 在 显著 性 水 平 0.05 下 ， 没 有 发 现 误差 方差 不 
等 . 

(i) Harley 最 大 下 比 法 

首先 计算 MS。., 经 计算 得 


MS。 =226, 。” MS。 = 211， MS。, = 182. 


故 


_ maxi(MSe) 226 _ 
Prax = rini( MSA) ™ 182 ~ 124 


而 此 时 的 临界 值 表 Fiwax = (3,9) = 5.34 > 1.24. 统计 结论 与 Levene 法 相同 . 

( 道 ) Bartlett 的 x? 检验 法 

经 计算 得 MS。 = 206， c=1.05,q/c 守 0.06,B=0.138. 但 x3(0.05) = 5.99 > B. 
统计 结论 与 Levene 法 相同 . 

(iv) Cochran 检验 法 

由 前 面 的 计算 结果 得 


max(MS。,) 226 


C= MS FMS + Mee ™ 619 ~ 0365. 


由 表 查 得 Cn-1,a(a) = Cs,a(0.05) = 0.6167 > 0.365. 统计 结论 与 Levene 法 相同 . 


车 用 SAS 软件 用 BF 检验 法 ， Obrien 检验 法 检验 得 到 的 结论 与 Levene 法 相 
同 . 


习题 七 


7.1 试验 6 种 农药 对 杀 虫 效果 的 影响 ， 所 得 数据 如 下 ， 
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(1) 写 出 试验 的 统计 模型 ; 

(2) 在 a = 0.05 时 ， 不 同 农药 的 杀 贝 效果 有 显著 差异 吗 ? 

(3) 试 给 出 诸 参数 的 一 组 LS 解 ; 

(4) 试 写 出 第 5 号 农药 的 平均 杀 虫 量 的 95% 置信 区 间 . 

7.2 ”对 单 向 分 类 模型 (7.1.1), 试 把 平方 和 SSA 和 SS。 表 成 观测 向 量 y = (yi gj2 an 
3al gana galiyaz gone) 的 二 次 型 ， 并 利用 第 二 章 的 结果 ， 证 明 ， 

(1) SS4 ~ xu, 写 出 非 中 心 参数 入 

(2) 当 Ho: aa =… = au 成 立时 ， SS4 ~ X21; 

(3) SS。 ~ x 和 -~-。 且 与 SS4 相互 独立 . 

7.3 ”对 单 向 分 类 模型 (7.1.1), 给 定 c1,c2,… ,ca, 试 导 出 检验 线性 假设 Ho; 


4 +aa 二 as H+ oe 
Cl c2 Ca 


的 严 统 计量 . 

7.4 设 由 三 让 +eg， 一 1. pa 
No,c2). 

(1) 试 求 a = 4 时 检验 Ho pa = 2p2 = 3Hs 的 忆 统 计量 ; 

(2) 试验 证 当 = 2 时 检验 Hot pa = ja 的 下 统计 量 即 检验 具有 共同 方差 的 两 个 正 态 总 体 
的 均值 是 否 相等 的 t 统计 最 的 平方 . 

7.5 对 线性 模型 y = X1Bi + XX2Ba +e，e ~ (0,0?7), 车 对 BI 和 Bo 的 任 一 可 估 函 数 
4 有 和 Ba, 用 和 和 心房 分 别 表示 它们 的 BLU 估计 . 若 对 任意 两 个 可 估 函 数 cp 和 cB2， 
有 Cov(c 房 ，o 房 ) = 0, 则 称 所 和 Ba 正 交 ， 对 两 向 分 类 模型 


ob 其 中 诸 ei; 是 独立 同 分 布 的 ， eg ~ 


Wii = p+ ai tp + ei, 了 
eij ~ N(0, ac”), 且 所 有 eij 相互 独立 . 证 明 ay = (aa az,……，,ao) 与 Bf = (Bi, Pa,…,B) 相互 
正 交 . 


7.6 ”对 无 交互 效应 两 向 分 类 模型 (7.2.1), 引入 相同 的 矩阵 向 量 符 号 , 记 Jm = 1m1, i 一 
去 Jm, 则 易 得 js = Jj。@ 态 . 试 证 明 


SSr = DD (vs -5) = [ls ~ Tas]y, 


i=1 j=1 


二 7 

SSA = 2 [eh 
由 2 

sse = D2 -=y [he (nA)], 


a 
SSe = $8. = 2 ys -Wnto =y [LL) 0 (hh)]y. 


51 j=1 
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7.7 对 有 交互 效应 两 向 分 类 模型 【7.3.1), 并 引入 相同 的 矩阵 向 量 符号 ， 符 号 J 同上 , 试 
证 明 


ssr = DD Dy [le Te] y, 


这 1 j=1 k=1 


SS4 = 六 六 Fe. -T=y [(1 -7)@], 


1 j=1 k=1 


ss = ET, 7 [Le (he 


i1 j=1 k=1 


SSaxp= DD Dn ty) = [(l jh) 8 (hh) ejy, 


i=1 j=1 k=1 


CR 
Sse = DD Dwr -B= Ln (7)]y. 


1 j=1 k=1 
7.8 对 无 交互 效应 的 三 向 分 类 模型 
Vijk = +aitB+t y+tesr, i=l,,a, j=1,.…,b, 


这 里 ebx ww N(0,c?7), 并 且 所 有 的 eij 相互 独立 . 
(1) 如 果 增 加 边界 条 件 为 2. os = 0， 守 ; B; = 0， 沁 Ye = 0, 则 诸 参 数 的 一 组 LS 解 为 


= 


Ws T=. —T.. 
(2) 试 导出 检验 假设 Ho aa = aa = … = ae 的 下 统计 量 . 
7.9 试 将 两 级 套 分 类 模型 (7.4.1), 写成 线性 模型 的 一 般 形式 y = XB + e, 并 将 各 平方 和 写 
成 形 如 前 两 个 习题 的 Kronecker 乘积 的 形式 . 
7.10 ”对 两 级 套 分 类 模型 (7.4.1), 设 bi = b, i 二 1.…,a， nij = c. 对 一 切 i 为 试 导 出 形 
如 
(a +B)) - (av +B0), LE 


的 可 估 函 数 的 Bonferroni 区 间 ， Scheffs 区 间 和 Tukey 区 间 . 
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在 第 一 章 我 们 通过 实例 引进 了 协 方差 分 析 模 型 . 本 质 上 讲 , 它 是 方差 分 析 模 型 
和 线性 回归 模型 的 一 种 “混合 ". 这 里 “混合 ” 二 字 是 指 , 它 的 设计 和 矩阵 可 以 分 成 两 
部 分 ， 一 部 分 的 元 素 由 0 、1 两 个 数组 成 ， 是 方差 分 析 模 型 的 设计 阵 ， 另 一 部 分 的 
元 素 可 以 取 任 意 实数 值 ， 是 线性 回归 模型 的 设计 阵 . 对 于 一 个 协 方差 分 析 模型 ， 方 
差分 析 部 分 是 主要 的 ， 我 们 的 基本 目的 是 作 方 差分 析 ， 而 回归 部 分 仅仅 是 因为 回 
归 变 量 即 协 变量 不 能 完全 控制 而 引入 ， 基 于 这 些 特 点 可 以 期 望 这 种 模型 的 统计 分 
析 能 够 从 略 去 回归 部 分 所 得 到 的 纯 方 差分 析 模 型 的 方差 分 析 作 适当 修正 来 完成 . 
本 章 的 目的 是 对 实现 上 述 思想 提供 具体 实施 方法 . 

因为 从 形式 上 讲 , 协 方差 分 析 模型 可 以 看 成 一 般 分 块 线性 模型 的 特殊 情况 ， 因 
此 我 们 先 讨论 一 般 分 块 线性 模型 . 


88.1 一 般 分 块 线性 模型 
考虑 一 般 分 块 线性 模型 


3=XB+2T+e， E(e) = 0， Cov(e) = oz ， (8.1.1) 


这 里 XX 是 nxp 和 矩阵 , Z 是 nxg 矩阵 记 W =(X: 2), 5=(B',Y) .从 这 个 模 
型 可 得 到 5 的 LS 解 ， 
总 中 | 生 = (WW)-W'y. 
~ 


当 开 (W) =p+g 时， 它 是 5 的 LS 估计 . 如果 略 去 ZY 部 分 ， 得 到 
Ey)=XB+e, Ee)=0, Var(e)=o2h. (8.1.2) 


从 中 可 得 到 6 的 LS 解 
B=(X'X)-X'y. 

为 叙述 方便 计 ， 我 们 称 (8.1.1) 和 (8.1.2) 分 别 为 全 模型 和 子 模型 ， 从 这 两 个 模型 我 
们 可 以 得 到 有 的 两 个 LS 解 ， 当 rk(X) = p 时 ， 它 们 就 是 两 个 LS 估计 .一 个 重要 
问题 是 研究 这 两 个 估计 之 间 的 关系 . 特别 是 ， 如 何 把 8* 用 启 来 表示 ， 以 便 通过 后 
者 能 简单 地 计算 前 者 . 

在 以 下 的 讨论 中 ,我 们 对 X 的 秩 不 作假 设 ， 但 总 是 假定 2 是 列 满 秩 ， 并且 Z 
的 列 与 X 的 列 线性 无 关 ， 即 


MX) NM(Z) = {0}， (8.1.3) 
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rk(2) = 9 (8.1.4) 
对 任 一 矩阵 4, 记 N。 = 了 A'(4'4)-4'. 
定理 8.1.1 在 条 件 (8.1.3) 和 (8.1.4) 下 ， 
(了 有) cB 可 估 二 > ce M(X'). 
(2) 7 可 估 . 
(3) 2 Nx2 可 递 . 
证 明 (1) 因为 


于 是 cB 可 估 当 且 仅 当 


& 党 
eM 
() 可 
> 存在 a, 使 得 c=X'a, Za=0 


二 ceS={Ya Za=0}. 


根据 定理 2.1.2, 并 利用 (8.1.3), 有 
日 
dim 5 = rk —rk(2) = rk(X). 
Z 


由 SC M(X') 知 5=M(X'). (1) 得 证 ， 同 法 可 证 (2). 
现 证 (3) 设 ZN Za = 0, 则 由 N 的 短 等 性 得 


aqa2NNxZa=a2Z'NeZa=0， 


即 Nx Za = 0. 因而 Za = X(X'X)-X'Za 会 Xb, 这 里 b= (X'X)-X'Za. 由 于 Z 的 
列 与 X 的 列 线性 无 关 ， 此 式 意味 着 a = 0. 由 于 从 ZN Za = 0, 可 以 推出 a = 0， 
所 以 ZNx 2 的 列 线性 无 关 ， 因 此 它 是 非 奇异 的 . (3) 得 证 ， 定 理 证 毕 . 

这 个 定理 的 第 一 条 结论 说 明 ， 对 于 全 模型 和 子 模型 8 的 可 估 性 是 一 样 的 . 

下 面 的 定理 刻画 了 全 模型 和 子 模 型 LS 解 之 间 的 关系 及 其 性 质 . 

定理 8.1.2 (7 = (ZN 2)-1Z Ney, 

(2) p* =B— XY, 
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“243. 


(3) 对 任 一 可 估 函 数 5， Var(c5*) = o?c' Mec, 这 里 六。 = (X'X)~X'2Z， 


ve | KD tLNEZ) I Xs, XZ NZ) 
(ZN 2 (ZN 2)-! 


证 明 ”我 们 先 证 (2). 给 定 y= X68+2y++e, 则 


ee = (y~- XB~27)(y— XB- 27) 


= yy-28 XYy—2Y2Yy+2B XZYy+ PX XB+ YI' ZY . 


为 求 8* 和 %", 我 们 对 上 式 分 别 对 6 和 Y 求 导 ， 利 用 矩阵 微 商 ， 得 到 
—2X'y+2X'2y" +2X'X8* = 0， 
-2Z'y+22'XYy* +22'28* = 0. 
由 (8.1.7) 我 们 有 
PB" = (XX) X(y— ZY"), 
于 是 (2) 得 证 . 
现在 证 (1). 把 (8.1.9) 代入 (8.1.8) 就 可 得 出 
2'27° = ZYy— ZX(XX)X'(y — ZY°), 
所 以 
ZIn — X(XKX)-X]ZY" = ZIn — XXX)-X']y, 
即 
QINx2T = 2Z'NeY. 
从 上 一 定理 知 ， 2Z'Nx 2 可 道 ， 因 而 
?= (ZNxZ)-L2Z'N。y . 
(3) 
Cov0”) = o2(Z'Ny 2)-12ZNy 2(2' Ny 2)-! 
= (ZN ZY, 
Cov(B, 7°) = Cov [(X'X) X'y, (Z'NyZ)-1ZNyy) 
= o2(X'X)-XNZ(Z'N, 2)-1 =0. 


(8.1.5) 


(8.1.6) 


(8.1.7) 
(8.1.8) 


(8.1.9) 


(8.1.10) 


(8.1.11) 


(8.1.12) 
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利用 (D, 我 们 得 到 
Cov(B", 7°) = Cov(8 一 Xe7 7) 
= Cov(B, 7) — Xs Cov(y’) 
= -o2X,(2Z'Nx2)-! (利用 (8.1.12) 式 )， (8.1.13) 
从 而 
Cov(6) = Cov(5-Xe7) 
= Cov(B) - 2Cov(B, Xs7°) + Cov(X27") 
2 [(X'X)- XXX'X)- + Xs (ZN 2)-1X’] 
(利用 (8.1.12) 式 ). (8.1.14) 


将 c 表示 为 c= (c4,c2), 这 里 cl 为 px 1. 依 上 一 定理 ， 存 在 a 使 得 cl 可 表示 为 
c1 = X'a. 据 此 可 证 得 


Cov(e1B") = cc [((X'X)~ + XZ NZ) Xs] ci . 


定理 证 毕 . 
对 于 全 模型 和 子 模型 , 它们 的 残 差 平方 和 分 别 为 SS: = y Nwy 和 SS。 = y Ny. 
容易 证 明 ， 它 们 有 如 下 关系 


SS: = SS。 -ZN . 


事实 上 ， 
2 一 XP — 27 =y- XXX) XY 27°) — ZY* 
= [I —X(XX) XYy 27") 
= Nx(y— 27°), (8.1.15) 
所 以 


YNwy = (y— Wo)(y— Wo6’) 
= (一 Xp -ZY°)(y— XP* — 27°) 
= (y— 27) Ne (y— 27°) 
= YNyYy 2 ZN 十 ZN ZY 
= YNey—7" ZNey -7 (ZNey — 2'N' ZY°) 
= YNxy -7 ZNxY (利用 (8.1.10) 式 ). (8.1.16) 


88.2 参数 估计 “245. 


若 X 为 列 满 秩 的 ， 即 zk(X) =p, 则 8 可 估 . 此 时 8* 和 多 分 别 为 全 模型 和 子 
模型 的 LS 估计 ， 并 且 Cov(5*) = o?M, 这 时 MM 的 表达 式 (8.1.5) 中 的 (X'X)- 就 
自然 变 成 了 (XX)™. 


$8.2 参数 估计 
我 们 考虑 一 般 的 协 方差 分 析 模型 
%=XB+27+e 人 5+e， e~N(0,027), (8.2.1) 


这 里 y 为 mx 1 观测 向 量 ， 设 XB 为 模型 的 方差 分 析 部 分 ，X = (zij) 为 nxp 已 
知 矩阵 ， 其 元 素 zi 皆 为 0 或 1，B 为 因子 效应 向 量 ， 27 为 模型 的 回归 部 分 ， 
2 = (z5) 为 nxgq 已 知 矩阵 ， 其 元 素 (25) 可 以 取 任 意 实数 值 ， yoxi 为 回归 系数 . 
在 下 面 的 讨论 中 我 们 总 假设 (8.1.3) 和 (8.1.4) 成 立 .因此 上 节 关 于 一 般 分 块 线性 模 
型 的 结论 对 协 方差 分 析 模 型 (8.2.1) 都 成 立 . 

定理 8.1.1 的 结论 (1) 和 (2) 表明， 对 协 方差 分 析 模 型 (8.2.1), y 总 是 可 估 的 ， 
参数 函数 cB 的 可 估 性 与 对 应 的 纯 方差 分 析 模 型 y= XB+e 中 cB 的 可 估 性 相同 . 

由 定理 8.1.2, 对 模型 (8.2.1), 回归 系数 的 LS 估计 为 


7 =(Z Ne2) 2 Nyy, (8.2.2) 

这 里 知 等 阵 Nx = 工 - X(X X)-X 是 纯 方差 分 析 模型 
y= XB+e, e~N(0,0°1) (8.2.3) 
作 方 差分 析 时 残 差 平方 和 SS。 = yy 一 FX'y = y Nyy 的 二 次 型 的 方 阵 . 所 以 y* 的 

计算 可 以 利用 纯 方差 分 析 模 型 (8.2.3) 的 方差 分 析 结果 . 

同样 由 定理 8.1.2, 对 模型 (8.2.1), 得 到 6 的 LS 解 为 
BP"=B-(XX)-X 2 =H- Xsy, (8.2.4) 
其 中 

B=(XX) XY X=(XX)XZ. (8.2.5) 


对 任意 ce At(X ), 可 估 函 数 cB 的 BLU 估计 为 cB* = cB eX,y*. 其 中 第 一 
项 为 从 纯 方差 分 析 模型 (8.2.3) 得 到 的 c .6 的 BLU 估计 . 而 第 二 项 为 引进 了 协 变量 
之 后 对 cb 所 做 的 修正 . 车 XZ = 0， 则 X。 = 0, 此 时 B* = 扩 这 表明 当 设计 阵 
XX 和 2 的 列 向 量 相互 正 交 时 协 变量 的 引入 对 可 估 函 数 c 6 的 BLU 估计 并 没有 产 
生 任何 影响 . 
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对 任 一 可 估 函 数 c 8, 其 BLU 估计 cB" 的 方差 Var(c 8*) = c Cov(b*)c 从 定 
理 8.1.2 得 ， 对 任 一 可 估 函 数 c 8, 有 


Var(c 8*) = oz[c (X X)-ect+e Xs(Z Ne2)-1IXacl. (8.2.6) 
从 (8.2.4) 和 (8.2.6) 可 以 看 出 ， 对 协 方差 分 析 模型 的 可 估 函 数 c8 而 言 ， 它 的 BLU 
估计 及 其 方差 可 以 从 对 应 的 方差 分 析 模 型 的 BLU 估计 经 过 简单 修正 得 到 . 


下 面 举 一 个 例子 说 明 上 面 的 结果 . 
例 8.2.1 具有 一 个 协 变量 的 两 向 分 类 模型 为 


Yi = H+ oit i+ y+ ey, i=1,,a, j=1,.…,b, (8.2.7) 


这 里 eg ~ N(0,c?), 且 所 有 eij 都 相互 独立 ， 并 ;ai = 部 ; B; = 0. 相应 的 纯 方差 分 
析 模 型 为 


Yij = +ait ;+ ei i=b,a j=1,.',b. (8.2.8) 


由 (7.2.9), 残 差 平方 和 


a b 
Sse = 》 》 (ys -Hy +9.) EyNY . (8.2.9) 


i=1 j=1 


根据 这 个 表达 式 ， 容 易 知道 


a b 
ZNeYy= DD (yD nyt (2 — Zi 3+) 


i=1 j=L 


a b 
Z NZ = DD) (2 -3 z+.). 


i=1 j=1 


依 (8.2.2), 回归 系数 7 的 LS 估计 为 


2 (xi — Di Diy) (2 — Bi ;+z..) 
3 Py . (8.2.10) 
i 
i=1j=1 
又 从 纯 方 差分 析 模 型 解 得 ai 的 LS 解 ( 见 87.2) 为 G; = - 豆 .. 对 应 于 (8.2.5) 的 
X 2， 取 Ex ==. 一 三 ,由 (8.2.4) 得 到 协 方差 分 析 模型 ui 的 LS 解 


88.3 假设 检验 a 


类 似 地 


根据 定理 8.1.2 和 定理 7.2.1 知 ， 任 意 对 照 车 :cios 和 志 ; djB; 都 可 估 ， 且 它们 的 
BLU 估计 分 别 为 
ely 7) 这 里 Do=0 


Dd;(9; 一 7;)， 这 里 2 = 0. 
5 
特别 ，ai - au 的 BLU 估计 为 
Qa? -oat = — D7 (z— zu.), (8.2.11) 
Bj; 一 Bu 的 BLU 估计 为 
Bb) -Pe =- 一 人 (2 一 了 ov). (8.2.12) 


(8.2.11) 和 (8.2.12) 与 纯 方差 分 析 模型 的 结果 (定理 7.2.1) 相 比 , 都 多 了 一 个 由 协 变 
量 引 起 的 修正 项 ， 它 们 的 方差 分 别 为 


Var(a? ~ ax) = 2 | 十 | (8.2.13) 
和 了 _ 了 2 
Var(B; -Bi) =0? 2 + | | (8.2.14) 


利用 这 些 结果 可 以 给 出 ai 一 au, i 关 和 B; - Bu, I 关 v 的 各 种 同时 置信 区 间 . 
从 这 个 例子 我 们 可 以 看 出 ， 对 协 方差 分 析 模型 (8.2.7) 的 参数 估计 的 计算 利用 
对 应 的 纯 方差 分 析 模 型 (8.2.8) 的 残 差 平方 和 (8.2.9), 使 计算 大 大 简化 . 


88.3 假设 检验 


本 章 一 开始 就 已 经 指出 ， 对 协 方差 分 析 模型 我 们 的 基本 兴趣 放 在 方差 分 析 部 
分 , 即 主要 目的 是 对 方差 分 析 部 分 的 参数 作 检验 . 所 以 这 一 节 我 们 先导 出 检验 线性 
假设 有 6 = 0 的 下 统计 量 ,这 里 及 6 为 mm 个 线性 无 关 的 可 估 函 数 ， 尔 后 给 出 检验 
假设 Y= 0 的 己 统 计量 ， 这 个 检验 的 直观 意义 也 是 很 明显 的 . 
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首先 ， 模 型 (8.2.1) 的 残 差 平方 和 为 
Ss: = (y— Xp"* — 27y°) (y — Xp" — 27°) 
= YNxy -7 ZNey 
= YNey— YNZ(2' Ny 2) (2' Nay), (8.3.1) 


其 中 第 一 项 为 纯 方 差分 析 模 型 (8.2.3) 作 方 差分 析 时 的 残 差 平方 和 SS。= y Nxy. 
第 二 项 则 是 由 于 在 模型 中 引进 了 协 变量 致使 残 差 平方 和 所 减少 的 量 ，(8.3.1) 式 表 
明 ， 对 协 方差 分 析 模 型 (8.2.1), 残 差 平方 和 SS: 可 以 由 纯 方 差分 析 模型 (8.2.3) 的 
残 差 平方 和 SS。 减 去 一 个 修正 量 VN 2(2'N,2Z)-!(2Z'Nxy) 得 到 . 而 且 此 修正 量 
只 依赖 于 y 和 2 的 列 向 量 z1,z2,… ,zg 的 若干 形 如 ziNxzj (7 = 1,.…,g) 和 
Nxy(i = 1,…,q) 的 二 次 型 和 双 线 性 型 ， 这 些 二 次 型 和 双 线 性 型 的 矩阵 都 是 残 差 
平方 和 SS。 = yNxy 的 二 次 型 方 阵 Nx. 因此 ， 对 协 方差 分 析 模型 (8.2.1), 协 方差 
分 析 的 残 差 平方 和 SS: 可 直接 利用 纯 方 差分 析 模 型 (8.2.3) 的 残 差 平方 和 SS。 来 计 
算 . 


车 以 及 记 纯 方差 分 析 模 型 (8.2.3) 中 参数 8 在 约束 HB = 0 下 的 LS 解 ， 则 对 
应 的 残 差 平方 和 
SSen =yYy -PBX'y SyQy. (8.3.2) 
若 记 协 方差 分 析 模型 (8.2.1) 在 约束 HB = 0 下 参数 6 和 + 的 约束 LS 解 对 应 的 残 
差 平方 和 为 SS2w 因为 SS:w 与 SSew 的 关系 和 SS: 与 SS。 的 关系 完全 一 样 ， 故 从 
(8.3.1) 和 (8.3.2) 知 


S552, = YQYy -YQ2(2'Q2)1(2'QY) , (8.3.3) 


这 里 2'82 是 可 道 阵 ， 其 证 明 与 定理 8.1.1(3) 相 类 似 ， 上 式 表明 ， SS: 是 由 SSe 
减 去 由 于 引进 协 变量 而 产生 的 修正 项 得 到 的 .比较 (8.3.1) 和 (8.3.3), 再 结合 (8.3.1) 
式 后 面 的 讨论 可 以 知道 ， SS:， 的 计算 可 以 利用 SSew 来 完成 . 根据 85.1 及 (8.3.1) 
和 (8.3.3), 对 协 方差 分 析 模型 (8.2.1), 假设 检验 HB = 0 的 FF 统计 量 为 
_ SS:, — SSen /m 

~ SS/(n—r—q) 

当 HB = 0 为 真 时 ， 丽 ~ Fm nrg 这 里 + =zk(X), m= zk( 有 H). 

上 面 的 讨论 说 明 , 在 协 方差 分 析 模型 (8.2.1) 的 统计 分 析 中 , 相应 的 纯 方 差分 析 
模型 (8.2.3) 起 着 中 心 的 作用 . 要 对 协 方差 分 析 模 型 (8.2.1) 假设 检验 HB = 0, 可 以 先 
对 对 应 的 纯 方差 分 析 模型 (8.2.3) 作 同 样 的 检验 , 导出 SS。 = y Ny 和 SSen = YQy, 
计算 出 各 自 的 修正 量 ， 利 用 (8.3.1) 和 (8.3.3) 简便 的 计算 出 SS:,, 和 SSew, 这 样 大 
大 节省 了 计算 量 ， 这 正 是 本 章 一 开始 所 指出 的 我 们 研究 协 方差 分 析 的 目的 所 在 . 


五 (8.3.4) 
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对 于 线性 假设 Y = 0, 读者 容易 明白 , 下 统计 量 为 
$5. — SS:/g 


= sr/a—r -9 


(8.3.5) 


当 Y=0 成 立时 ， 忆 ~ Fn-r-q. 如 果 经 检验 , 假设 7 = 0 被 接受 ， 则 可 以 认为 协 
变量 的 影响 不 存在 ， 我 们 只 要 研究 纯 方差 分 析 模型 (8.2.3) 就 够 了 . 
例 8.3.1 ”对 具有 一 个 协 变量 的 两 向 分 类 模型 


Yij= +ait+p;+ yz + eij, i=l, a j=1,,b, 


这 里 eij ~ N(0, o?), 且 所 有 ei 相互 独立 .考虑 假设 


(DH B=-.…= pb,, 
Boe rd 
的 检验 问题 . 


解 ” 对 于 纯 方 差分 析 模 型 
Yij = H+ oit+ bj;+ ei i=l,,a, j=1,..,b. (8.3.6) 


由 例 8.2.1 知 ， 残 差 平方 和 残 差 平方 和 


a b 
Ss. = 》 》 (or -nD +9.) Sy Ny, 


pr 
以 及 
a b 
ZNey = Dy -n+ 
i=l1 j=1 
(2 
ZNeZ = DD -Ezz)?. 
| 
由 (8.3.1) 得 
oN 0 (Ney) 
SSe =y Ny BNF 
a b 
= DD -+5.)? 


i=1 j=1 


上 守 (yj — i. — Di + (zj — Bi + zj 
去 (8.3.7) 


(zij 一 到 .一 瑟 j 十 去 -)2 
1 


a 
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(1) 在 假设 丁 下 , 纯 方差 分 析 模 型 (8.3.6) 变 为 单 向 分 类 模型 . 由 (7.1.15) 知 ， 
残 差 平方 和 
SSen, = DD (ys —H) 人 yey， 


i=1 j=1 


于 是 
a b 
Zey = 》》》 (0 — Di) 一 五 )， 
i=1 j=1 
a b 
2'02 = DD (i -zi). 
i=1 j=1 
由 (8.3.3), 立 得 
和 » (2'Qy)’ 
S556, = YQYy— FOZ 
2 
b 
x 沪 Es —D.)(z — | 
= DD (8.3.8) 
pp 2 D(z)? 


is1j=1 


根据 这 些 结果 ， 容 易 写 出 检验 假设 H 的 下 统计 量 . 

(2) 在 (1) 中 已 计算 出 SS。 和 SS, 依 (8.3.5), 也 可 立即 写 出 检验 假设 Ho: y = 0 
的 及 统计 量 ， 如 果 这 个 检验 显著 ， 说 明 协 变量 z 不 能 忽视 ， 当 被 拒绝 时 ， 我 
们 希望 求 7 的 置信 区 间 . 应 用 一 般 的 回归 理论 到 模型 (8.2.1) 式 ， 易 得 + 的 置信 区 
间 . 


§8.4 计算 方法 


前 几 节 的 讨论 说 明了 在 对 协 方差 分 析 模型 作 统计 分 析 时 ， 可 以 先 对 对 应 的 纯 
方差 分 析 模型 作 统计 分 析 ， 在 此 基础 上 可 以 较 容易 地 计算 出 协 方差 分 析 所 需要 的 
各 种 统计 量 ， 例 8.2.1 和 例 8.3.1 以 含 一 个 协 变量 的 两 向 分 类 模型 为 例 说 明了 协 方 
差分 析 的 基本 方法 . 但 是 , 从 (8.2.10), (8.3.7) 和 (8.3.8) 可 以 看 出 ， 与 上 章 的 方差 分 
析 相 比较 ,引进 适当 的 记号 和 表格 ,采用 恰当 的 计算 步骤 对 协 方差 分 析 更 为 必要 ， 
本 节 继 续 以 两 向 分 类 模型 为 例 具体 说 明 这 一 点 . 

对 具有 一 个 协 变量 的 两 向 分 类 模型 


y=ptoathtyaites, i=l,a 了 
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88.4 计算 方法 
我 们 把 ,a2,… ,Qa 看 作 因 子 4 的 a 个 水 平 的 效应 , 把 Bi, Po,…,6s 看 作 因子 B 
的 5 个 水 平 的 效应 ， 和 前 面 一 样 假定 esi ~ N(0, o?), 且 所 有 ei 相互 独立 . 
记 
a a b 2 
Sw = wi- = Dj 坊 - 竹 ， 
i=1 j=1 i=1 j=1 
a bb a bb 2 
Sz = DD (zi 一 P=-5 或- 三 ， 
i=l i=1 j=1 %» 
六 DD D(z —) = vo 
i=1 j=1 i=1 j=1 
i 
we 2 
Ayy = D7 P=» 给- 比 人 ss4， 
闪 re 三 二 半生 有 
2 = i 一 2.) 一 一 
dtl J b ob 
a b 
A “i A Viz YZ 
hy: = SE" 1 
2 
By = Ty, -y= be -所 人 sse， 
1 
六 -二 -和 区 有 2 
az 一 7 ) “和 二 
Bu: = 六 ov -7 )( 一 到 )= 守 i 4 
i=1 j=1 i=1 
Ew = YNey= ig 一 二. 一 列 十 亚 )， 
i=1 j=1 
Es = ZN Z， 
BEB,: = YNx2. 
由 (7.2.10), 我 们 有 关系 式 
= Syy — Ayy — Byy - 


于 是 ， 也 就 有 关系 


E,: = S$:: — A:: — B, 


Bs = Sys — Ays — 


2 
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若 (8.3.7) 式 的 SS: 利用 这 些 记号 ， 则 (8.3.7) 式 的 SS: 可 表 为 
SS: = Buy — EB?,/Ee:. 


因为 


b> ?> = p33 = Eyy+ Byy, 


isl j=1 1 j=1 


b 
p> 和 袜 和 把 EE = Bs + By:, 


=1 j=1 i=1 j=1 
a bb 2 
i 


守 交 GP- 守 六- 守 


i=1 j=1 i=1 j=1 1 


所 以 (8.3.8) 变 为 


(Bys + Bys)? 
BtBs “ 


从 而 检验 假设 包 : B1 = … = Bs 的 下 统计 量 为 
[(Byy + Byy) ~ (By: + Bys)*/(Bss + Be) — (Byy — E?,/E::)] /(b— 1) 

By - EB?./E::/[((a— 1)(0—1)—1] 
类 似 地 ， 检 验 假设 2: ai = … = aa 的 下 统计 量 为 


[(Byy + Ayy) — (Bys + Ays)*/(Bss + Az:) — (Eyy — E2,/E::)] /(a— 1) 
By - E32./E::/((a— 1)(6—1)—1] 


SSen, = (Eyy + Byy) — 


= 


有 瓦 = 


对 假设 Hot y = 0, 因为 


E\ E 
SS。 — SS: = Ey- {|E,,— i 


Be EBs) 


所 以 假设 Ho 的 下 统计 量 为 
Ey,/E:: 

(Byy ~ Ey,/BE::)/l(a— D6-—1) -1 
根据 上 面 的 公式 计算 各 种 统计 量 , 并 把 主要 结果 列 成 表 8.4.3. 在 此 表 中 把 SS:, SSes 
等 平方 和 称 为 修正 平方 和 , 表示 由 于 引进 了 协 变量 后 从 原来 平方 和 SS。，SS。 作 修 
正 得 到 的 平方 和 . 

例 8.4.1( 数 据 取 自 文献 1]) ”在 化 学 纤维 生产 中 影响 化 纤 弹性 的 因素 有 收缩 
率 4 和 总 拉 伸 倍数 B. 对 4,B 各 取 四 个 水 平 进行 试验 ,各 个 试验 重复 一 次 . 但 由 
于 试验 中 电流 周波 (z) 不 能 完全 控制 ， 把 它 作为 协 变量 ， 试 验 数据 如 表 8.4.1. 

为 了 简化 计算 ,在 计算 时 将 原始 数据 作 如 下 变换 ; 将 去 减 去 49 再 乘 上 10, 而 
将 天 减 去 70. 计算 结果 列 在 表 8.4.2. 


丽 = 
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表 8.4.1 试验 原始 数据 表 


伸缩 率 4 

总 拉 伸 倍数 BB 4 4a2 | As As 

BB, z 49.0 49.2 49.8 49.9 49.9 49.9 49.7 49.8 
y 71 73 73 75 76 73 75 73 

Bz z 49.5 49.3 49.9 498 | 50.2 50.1 49.4 49.4 
y 72 73 76 74 79 yr 73 72 

Bs z 49.7 49.5 50.1 50.0 凶 | 49.7 50.0 49.5 49.6 
y 75 73 78 z 74 75 70 儿 

Bs 了 | 49.9 49.7 49.6 49.3 49.5 49.2 49.0 48.9 
y J 75 74 74 74 73 69 69 


表 8.4.2 ”试验 数据 协 方差 分 析 表 


i rT EE 
方差 源 | 自由 度 一 于 | 均 方 | 下 值 
因子 4 3 70.694 99.925 77.063 | 13.135 3 4.375 | 3.022 
因子 B 3 8.594 64625 20.688 | 5.617 3 1.872 | 1.992 
误差 25 |101.031 186.625 111.187 | 34.79 24 | 1.499 
总 和 31 “| 180.219 350.875 208.937 
因子 4 一 
十 误 郑 171725 286.250 208.250 | 47925 | 
因子 BB 
十 误差 109.625 251.250 131.875 | 40.407 
协 变量 x 66.24 1 66.24 | 45.714 


因为 Fl = 3.022 > 局 ,24(0.05) = 3.0, 而 及 = 1.292 < 本 .24(0.05), 所 以 因子 A， 
即 收缩 率 对 化 纤 弹性 有 显著 影响 , 而 总 拉 伸 倍数 的 影响 却 不 显著 . 又 Fo = 45.714 > 
下 ,24(0.05) = 4.3, 所 以 回归 系数 y 显著 不 为 零 . 即 协 变量 (电流 周波 ) 对 化 纤 弹 性 有 
一 定 的 影响 ， 对 给 定 的 水 平 组 合 4; 和 B;, 化 纤 弹 性 和 电流 周波 有 线性 回归 关系 ， 
回归 系数 Y* 由 (8.2.10) 算出 ， 用 本 节 的 记号 


BAY 
EE.. 186.625 


学 0.97 ， 


它 与 j 无关， 是 4x4= 16 个 水 平 组 合 的 y 与 z 的 公共 线性 回归 系数 : 
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如 欲 知道 


收缩 率 的 四 个 水 平 41, 42, 43, 44 的 优 劣 , 可 以 进一步 对 ai 一 au i 关 必 


作 同 时 置信 区 间 . 建议 读者 先 根据 (8.2.11) 和 (8.2.13) 导出 对 照 a; 一 Qu, i 关 4 的 
Bonferroni 区 间 和 Schefe 区 间 和 的 一 般 形式 ， 然 后 对 本 例 计 算 oi 一 as, i< 4 的 


这 两 种 区 间 . 
表 8.4.3 ”具有 一 个 协 变量 的 两 向 分 类 模型 协 方差 分 析 表 
平方 和 与 交叉 乘积 之 和 
方差 源 自由 度 z yz 
因子 4 a-1 Ays 4 Ay: 
因子 B b—1 Byy Bs By: 
误差 (a- De-1) Ey 已 。 已。 
总 和 ab 一 1 Sy Sez Sys 
因子 4+ 误差 Mn hy Ass + Ess Ay: + Ey: 
因子 B+ 误差 Byy + Eyy Bes + Es:s Bus + Eys 
协 变量 1 
方差 源 修正 平方 和 修正 自由 度 均 方 已 值 
因子 4 Qi=T -Qo a-1 Qi/(a-D) | YS 
因子 BB Q2=T— Qo b-1 Qa/(6—1) | 2 
误差 Q@o= Bw -E/E:: |fS(a-Db-D)-1| Qo/f 
总 和 
(A +E) | 
因子 A+ 误差 = 
Ar:+ js 
T= Ce 水 Tn) i 
_ (By: + Bys) 
因子 B+ 误差 :地 
协 变量 Ts = B2./B.s S Qs 1 Qs ty 


习题 八 


8.1 证 明 yNxy 一 yNwy 二 7"(Z'NxZ)-1y*, 此 处 各 符号 与 定理 8.1.2 相同 . 
8.2 对 模型 (8.1.1), 设 水 (X) = P 86" = (BY), 且 从 = ( 房 ), 证明 


Var(B?) > Var( 房 ). 


8.3 ”对 线性 模型 y = XB + e， e ~ N(0,o?1), 设计 阵 Xnxp 是 列 降 秩 的 ， 为 克服 B 的 
不 确定 性 ， 我 们 需要 一 组 适当 的 约束 条 件 ， 称 为 可 识别 性 约束 条 件 ( 或 边界 条 件 ). 如 果 召 是 
m xp 矩阵 ， 则 约束 五 B = 0 是 可 识别 性 约束 ， 当 且 仅 当 
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(1) M(X nM(H') = 0( 即 X 的 行 与 吾 的 行 线性 无 关 ), 并 且 
(2) G = ( * 的 列 线性 无 关 ， 即 rk(G) = p. 
HnH 


设 有 HB = 0 是 对 模型 y = XB 的 可 识别 性 约束 条 件 . 证明 它 也 是 对 模型 y = XB8 + 27Y 的 可 识 
别 性 约束 条 件 ， 由 此 证 明 此 时 有 的 估计 为 


BB =(G'G) xX'(y -27°), 


其 中 = (2Z'Nx 2)712'Nxy. 
8.4 对 有 一 个 协 变量 的 单 向 分 类 模型 


Vi=H+toatyates, i=ba, j=,n, 


其 中 eij ~ N(0,o?), 所 有 esi 相互 独立 ， 
(1) 求 对 照 ai 一 au, i 闫 的 BLU 估计 ; 
(2) 求 回归 系数 7 的 BLU 估计 ; 
(3) 导出 假设 Ho: 7 = 0 和 所 : an =.… = aa 的 严 检 验 统计 最 
(4) 列 出 相应 的 协 方差 分 析 表 ， 
8.5( 检 验 回归 线 是 否 平衡 ) 令 


Yi=Mm+mates 2 了 2 


其 中 ci; 是 相互 独立 同 分 布 ， 均 服从 N(0，c?), 这 里 有 a 条 回归 线 ， 每 条 线 有 5 个 观测 值 ， 试 
导出 希望 检验 
Hm =m = = (Sn) 

的 检验 统计 量 . 

8.6 对 例 8.2.1 的 协 方差 分 析 模 型 ， 导 出 对 照 ai 一 aw, 宇 头 坟 和 应 二 Bu 了 j 关 u 的 
Bonferroni 区 间 和 Scheffs 区 间 . 

8.7 具有 单个 协 变量 的 某 个 随机 区 组 试验 ， 见 下 面 的 数据 表 ， 试 完成 协 方差 分 析 并 做 适当 
结论 . 


随机 区 组 试验 
平方 和 与 交叉 乘积 之 和 
方差 源 自由 度 了 z yz 
区 组 8 1200 200 600 
处 理 4 800 100 300 
600 


第 九 章 混合 效应 模型 


考虑 混合 效应 模型 的 最 一 般 形式 
y= XB+Ué1+ Ut + + Urék, (9.0.1) 


其 中 y 为 nx1 观测 向 量 ，XX 为 nxp 已 知 设计 阵 ，B 为 px1 非 随 机 的 参数 向 量 ， 
称 为 固定 效应 ， 有 为 去 x 1 随机 向 量 ， 称 为 随机 效应 ， 且 E(&i) = 0, i = 1,…,k. 
通常 假设 

Cov(€i) = afl, Cov(é,€)=0, i#7 (9.0.2) 
于 是 ， 我们 有 

By) = X8， Cov(y) = Privo ree’), 

这 里 c2 = (a?,…,02).o? 称 为 方差 分 量 (variance components), 相应 地 模型 (9.0.1) 
也 称 为 方差 分 量 模型 (variance component model). 

如 第 一 章 所 述 , 混合 效应 模型 在 生物 , 医学 , 经 济 , 金融 等 领域 具有 广泛 应 用 ， 
因此 ， 近 30 年 来 ， 关 于 混合 效应 模型 的 参数 估计 一 直 是 线性 模型 的 最 活跃 的 研究 
方向 之 一 . 这 方面 已 有 一 些 专著 ， 如 文献 [63], [93]，[94], [96], 其 中 ， [63] 将 混合 效 
应 模型 应 用 于 处 理 纵向 数据 (longitudinal data) 分 析 . 

对 于 混合 效应 模型 ， 我 们 感 兴趣 的 参数 分 两 类 ， 固定 效应 8 和 方差 分 量 o? = 
(ci 人 它们 分 别 包含 在 均值 B(y) 和 协 方差 阵 Cov(y) 中 , 因此 在 处 理 方法 上 
本 章 与 前 几 章 讨论 的 固定 效应 模型 将 有 一 些 不 同 ， 问 题 也 就 变 得 更 复杂 了 . 

本 章 的 重点 放 在 方差 分 量 的 估计 上 . 对 于 方差 分 量 , 文献 中 已 有 的 估计 有 方差 
分 析 估计 (analysis of variance estimate, ANOVA 估计 ) 、 极 大 似 然 估计 (maximum 
likelihood estimate, ML 估计 ) 、 限 制 极 大 似 然 估 计 (restricted maximum likelihood 
estimate, REML 估计 ) 、 最 小 范 数 二 次 无 偏 估计 (minimum norm quadratic unbised 
estimate MINQU 估计 ) 和 最 近 由 本 书 部 分 作者 提出 的 谱 分 解 估计 (spectral decom- 
position estimate, SD 估计 ). 限于 本 书 的 性 质 和 篇 幅 ， 本 章 的 主要 目的 是 对 一 般 的 
混合 效应 模型 ， 集 中 讨论 方差 分 量 的 几 种 重要 估计 的 一 些 基础 性 理论 并 论 及 固定 
效应 的 估计 和 随机 效应 的 预测 . 


$9.1 固定 效应 的 估计 
为 符号 简单 计 ， 在 考虑 固定 效应 的 估计 时 ， 我 们 将 模型 写 为 如 下 形式 
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y= XB+UE+e, (9.1.1) 
其 中 6 为 固定 效应 ，& 为 随机 效应 . 且 E(é) = 0, E(e) = 0,Cov(é,e) = 0, 并 且 这 里 
假设 5 和 e 的 协 方差 阵 具 有 较 一 般 的 形式 Cov(€) = D > 0 Cov(e) = R > 0, 于 是 
我 人 有 克 = Cov(y) = UDU'+ R > 0. 当然 , 车 假设 (9.0.2) 成 立 , 则 R=o21,,D = 
diag(of1，…,081o-，), 从 而 有 Cov(y) = 2(c2). 
暂时 视 D,R 已 知 ， 应 用 LS 法 得 到 正则 方程 
XOE-IXB = XT-1y, 
据 此 可 以 求 到 8 的 广义 LS 解 8* = (X'D-1X)-X'5-1y. 因此 ， 任 意 的 可 估 函 数 
cB 的 BLU 估计 为 
dB (9.1.2) 
实际 上 D, 尺 未 知 ， 若 用 它们 的 估计 态 , 讽 代替 ， 即 用 仿 = UDU' 十 京 代 替 , 便 得 
到 cb 的 两 步 估计 


eB($) = o( XB-1X)-X 人 -iy. (9.1.3) 
在 假设 (9.0.2) 下 ， cp 的 两 步 估计 又 可 变形 为 
opB(6) = eX'DG) 1X)- XL)-1y, (9.1.4) 


这 里 8? = (58 28)， 其 中 53 为 方差 分 量 o? 一 种 估计 ， 下 面 我 们 将 证 明 ， 在 一 
定 条 件 下 ， <'6(52?) 是 c8 的 无 偏 估计 .本 质 上 它 的 证 明 是 定理 4.6.1 的 修正 . 
定理 9.1.1 ”对 于 混合 效应 模型 (9.1.1), 假设 e,E 的 联合 分 布 关于 原点 对 称 . 
设 恕 =?(y) 是 o? 的 一 个 估计 ， 它 是 y 的 偶 函 数 且 具有 变换 不 变性 .对 一 切 可 估 
函数 op, 若 B(c'B(6?)) 存在 ， 则 两 步 估计 cB(57) 必 为 eB 无 偏 估计 . 
证 明 因为 cp 可 估 ， 故 存在 a 使 得 c= X'a. 于 是 
eB(6) — eB = X(X'E-1(02)X)-X'D-1(0)(UE 十 e). 
从 如 是 yy 的 偶 函 数 以 及 不 变性 可 得 
02 =0(y) =0°(UE +e)=0°(-y) =6°(-Ué — e). 
记 
ul&,e) = eB(6) — eB = eA(X'D- (6) xX) XD (0)(UE + e). 


从 上 式 容易 推出 u(-6, -ee) = -ua(6,e), 即 ul&,e) 为 6,e 的 奇 函数 .结合 条 件 ， &,e 
的 联合 分 布 关 于 原点 对 称 , 利用 引 理 4.6.1 我 们 可 以 证 得 u(€,e) 的 分 布 也 关于 原点 
对 称 ， 故 有 

E(u(é,e)) = E(eB(6°) — cp) = 0. 
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定理 证 毕 . 

定理 中 关于 &,e 分 布 的 假设 在 许多 情况 下 是 满足 的 . 例如 ， 当 &,e 服从 多 元 正 
态 或 各 自 的 分 布 关于 原点 对 称 并 且 相互 独立 ， 此 时 €,e 的 联合 分 布 都 关于 原点 对 
称 ， 另 外 可 以 证 明 方差 分 析 法 ， 极 大 似 然 法 ， 限 制 极 大 似 然 法 和 MINQUE 法 ， 所 
产生 的 估计 5? 都 是 y 的 偶 函 数 ， 且 是 变换 不 变 的 ,参见 文献 [29]. 因此 ， 对 于 混合 
效应 模型 的 固定 效应 ， 定 理 9.1.1 给 出 了 一 大 类 两 步 估 计 的 无 偏 性 . 

我 们 可 以 看 到 ,方差 分 量 的 不 同 估计 ， 往 往 会 产生 不 同 的 两 步 估计 ， 而 且 结合 
具体 的 应 用 背景 ， 除 了 LS 估计 ， 模 型 还 可 能 存在 另外 一 些 简单 估计 ， 如 Panel 数 
据 下 的 Between 估计 和 Within 估计 ， 见 84.4 和 34.6 以 及 文献 [51] 和 [52]; 简约 
估计 ， 见 文献 [117]. 如 何 评价 这 些 的 优良 性 ， 王 松 桂 ， 范 永 辉 b9) 针对 Panel 数据 
模型 给 出 了 一 个 两 步 估计 协 方差 阵 的 精确 表达 式 ， 并 获得 了 该 两 步 估 计 优 于 LS 估 
计 ， Within 估计 的 一 些 简单 的 充分 条 件 . 但 总 的 来 说 ， 目 前 这 方面 的 理论 结果 还 
很 少 ， 其 主要 原因 是 两 步 估计 通常 是 观测 向 量 y 非 线 性 函数 ， 它 的 分 布 往往 特别 
复杂 ， 这 使 得 它 的 应 用 受到 了 一 定 的 限制 . 

在 结束 这 一 节 之 前 , 我 们 指出 一 种 重要 情形 . 从 第 四 章 的 最 小 二 乘 估计 稳健 性 
定理 (4.5.2) 知 ， 当 协 方差 阵 和 设计 阵 满足 一 组 彼此 等 价 关系 中 的 任意 一 个 时 ， 可 
估 函 数 eB 的 LS 估计 

dB=e(X'X)X'y (9.1.5) 
等 于 BLU 估计 ， 例如， 其 中 的 一 个 较 易 验证 的 条 件 是 ， Px 为 对 称 阵 ， 这 里 
Px =X(XX)-X'. 下 面 举 一 例 . 
例 9.1.1 单 向 分 类 模型 
我 们 考虑 平衡 单 向 分 类 模型 


Y=p+toateys i=l,0 j=1,.,b, 


其 中 p 是 固定 效应 ，a = (oa,…,ao)’ 为 随机 效应 假设 所 有 ai, ei; 都 不 相关 ， 
且 均 值 为 0,Var(os) = o2i= 1,…,a, 对 一 切 i,j, Var(eij) = o2. 这 个 模型 的 矩阵 形 
式 为 

y= (lo®1)p+ (1 ® 1)at+e, 


其 中 @ 为 Kronecker 乘积 .不 难 验证 


Cov(y) = o2(1s ® 1514) + o21at, 


ba2 十 o2 
a 


这 里 X= 1。@ 1 . 因此， 的 BLU 估计 等 于 其 LS 估计 , 即 Jy* = 二 5 


PxCov(y) = Cov(y)Px = ( )1l 8 nl, 
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je 


事实 上 ， 对 许多 常见 的 平衡 数据 的 混合 效应 模型 ， 固 定 效应 的 可 估 函 数 的 LS 
估计 都 是 其 BLU 估计 ， 参 见 文献 [97]- 
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在 第 五 章 ， 我 们 讨论 了 如 下 预测 问题 . 
已 知 历史 数据 服从 以 下 线性 模型 


y= XB+e, E(e)=0, Cov(e) =c22， 


这 里 y 为 n x1 观测 向 量 ， rk(Xnxp) =7, 允 为 已 知 正定 阵 ， 我 们 要 预测 m 个 点 
Zoi 二 (Toi).… ;Toip), i = 1,.….m 所 对 应 的 因 变 量 yo1,.…. ,yom 的 值 ， 且 已 知 yo 
和 历史 数据 服从 同一 个 线性 模型 ， 即 


yo =z0Bteo i=l,...,m. 
采用 和 矩阵 形式 ， 则 这 个 模型 变 为 
加 = XoB+eo, El(eo)=0, Cov(eo) = c22Zu， 
这 里 


Vol Toll + Tolp E01 


Yom Toml |. Tomp Eom 


假设 M(X6) Cc M(X') 且 wo 与 y 相关 ， 记 Cov(e,eo) = c2V' 关 0. 则 


een| | wl 
Wo V Zo 
在 广义 预测 均 方 误差 (generalized Prediction MSE 简 记 为 PMSE) 准则 下 ，wo 的 最 
佳 线性 无 偏 预测 ( best linear unbiased predictor， BLUP) 为 
加 =Xop*+VZ-I — XB"*). (9.2.1) 
我 们 现在 利用 这 个 结果 来 求 混合 效应 模型 (9.1.1) 中 随机 效应 上 的 BLU 预测 . 


因为 
y= XB+Ué+e, E(e)=0, Cov(e)=R>0, 
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BE) =0，cov(9 =D>0， 


go UDU'+R UD 
ej) \ pw pp) 
利用 (9.2.1) 得 的 BLUP 
€= DU'(UDU' + R)-1(y — XP"), (9.2.2) 
这 里 我 们 假设 D, R 都 是 已 知 的 . 如果 它 们 含有 未 知 参数 ， 在 实用 中 用 它们 的 估计 


代替 . 
我 们 也 可 以 用 另外 的 方法 导出 (9.2.2). 如 果 假设 6,e 的 联合 分 布 为 多 元 正 态 分 


0 


在 均 方 误差 意义 下 ，《& 的 最 佳 预测 (best Prediction, 简 记 为 BP) 指 的 是 使 
五 ( 一 g(y))? 达到 最 小 的 g(y), 记 为 go(y). 不 难 证 明 go(y) = E(ély). 依 多 元 正 态 
分 布 的 性 质 (定理 3.3.6), 我 们 可 以 得 到 


E(ély) = DU'(VDU' + R)'(y — XB). 
再 用 XB 的 BLU 估计 XB" 代替 XB 便 得 到 (9.2.2). 


Hendersonleej, Harvileleg 还 进一步 研究 了 线性 组 合 cB + d'é 的 估计 (或 称 预 
测 ) c18* + de 的 优良 性 ， 
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现在 我 们 引进 一 个 著名 的 混合 模型 方程 , 该 方程 组 形式 上 类 似 于 正则 方程 , 然 
而 它 却 能 同时 给 出 固定 效应 可 估 函 数 的 最 佳 线 性 无 偏 估计 (BLUE), 及 其 随机 效应 
的 最 优 线 性 无 偏 预 测 (BLUP). 

考虑 模型 (9.1.1), 我 们 假设 RR> 0, D > 0, 若 视 为 固定 效应 ， 则 估计 6, € 的 


正则 方程 为 
XBR1X XR 有 X'R-1y 
二 (9.3.1) 
UR-IX UR-U 所 7R-I9 
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在 系数 矩阵 的 右 下 角 的 不 RU 上 加 上 D-!, 得 到 


DB X'R-1U 6 _ | XR ， Ga 
UR'X UVRU4+D! € DR-I9 
称 为 混合 模型 方程 (mixed model equation), 它 的 解 记 为 名 5 称 为 混合 模型 解 
(mixed model solution) 我 们 将 证 明 混 合 模型 解 的 一 个 重要 性 质 . 


定理 9.3.1 ”对 混合 效应 模型 (9.1.1)， 


B=p", E=6 


这 里 8* = (X'Z-1X)-X'2-ly, 是 GLS 解 ， 是 由 (9.2.2) 给 出 的 BLUP. 
证 明 ”从 (9.3.2) 第 二 方程 有 


E€=(U'R-U + D1) (VR-1y -UV'R-1XA, (9.3.3) 
代入 第 一 方程 ， 得 到 
XR-1— RAU(V'R-IU 十 万 -1)D7R-I)X 语 
= a 一 ys + sd 9 
车 记 W = R71 R-IU(U'R-IU + D-1)U'R-1, 则 上 式 为 
XWXPB = X'Wy. (9.3.5) 


易 验 证 WD = 了 7, 即 W = 51, 第 一 条 结论 得 证 ， 由 (9.3.2) 并 结合 已 证 部 分 ，《 可 
重新 写 为 
€= (VU'R-IU + D1)- VR-1yy-1(y XA) 

= (VR-IU + D1) -IU'R (UDU'’ + R)2-!(y — Xp*) 

= (VR UU+ DN) VR UV + DI) DVS i(y — Xp*) 

= DU I(y ~ XP")=6 
定理 证 毕 . 

这 样 我 们 可 以 利用 方程 (9.3.2) 来 计算 6*(Z) 和 8 它 用 已 -1, D1! 的 计算 取代 


了 2 的 计算 ， 当 RD 为 对 角 阵 时 ， 了 不必 为 对 角 阵 ， 此 时 用 (9.3.2) 有 相当 的 
好 处 例如 媚 = c27nD = diag(o?J,，… ,08I,) ( 即 方差 分 量 模型 ), 此 时 (9.3.2) 变 
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为 
WE 加 X'y 
x 
jx 研 
免 | = 了 | (93.6) 
可 加 
UX WV-1+ et (£1) Uy 


这 里 所 = Di = 1 ,1 它 不 涉及 到 任何 形式 的 逆 矩 阵 计算 ， 只 包含 
了 方差 参数 之 比 o2/o?,i = 1,…,k 一 1 由 于 02, o? 皆 未 知 ， 若 用 它们 的 估 
计 (有 关 方 差 参 数 的 估计 我 们 将 在 后 面 讨论 ) 取代 真 值 ， 我 们 就 可 得 到 两 步 估计 
dB(62/OO，,… ,2/ 旨 _1) 和 随机 效应 的 近似 BLUP. 


89.4 方差 分 析 估计 


从 本 节 起 , 我 们 将 介绍 几 种 常用 的 方差 分 量 的 估计 方法 . 我 们 先 从 方差 分 析 法 
谈 起 . 顾名思义 , 这 种 方法 渊源 于 固定 效应 模型 的 方差 分 析 我 们 用 下 面 的 简单 例子 
来 阐明 它 的 原理 和 方法 . 

例 9.4.1 单 向 分 类 模型 

对 于 平衡 单 向 分 类 模型 


yi=p+tatey, i=l,,a j=1,.,b, 


和 以 前 一 样 ，4 为 总 均值 ， 是 固定 效应 ，o4,…, a。 为 随机 效应 .假定 所 有 oi, eiy 
都 不 相关 , 且 其 均值 为 0, 方差 为 Var(@;) = o2, Var(e5) = o2. 记 y = (yi, yas). 
暂时 先 把 ai 看 作 因子 4 的 i 水 平 4i 的 固定 效应 ,按照 87.1 单 向 分 类 模型 方差 分 
析 的 结果 ， 有 

RSS(U) = 殉 /(ab) SSS,, (9.4.1) 


其 自由 度 为 1. 对 应 于 a1,… ,Qa 的 平方 和 ， 即 因子 4 的 平方 和 


SS4 = RSS(p,0) — RSS(p) = ,Ds -7.)», (9.4.2) 
i 


其 自由 度 a - 1, 而 残 差 平方 和 为 


SS = yy -RSS(p,0) = DD (ys —H)?, (9.4.3) 
: 站 
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其 自由 度 a(8 一 1). 由 (9.4.1) 、(9.4.2) 和 (9.4.3), 可 以 推出 总 平方 和 的 分 解 式 


yy = SS + SSA+SSe 
= PP/(ab) + (FF.) + (yj 一死)2. (9.4.4) 

将 各 平方 和 除 以 自由 度 ， 得 到 均 方 : 

Qo = /(ab), 

Q1 = (Wi. — 7.)/(a— 1), 

Q2 = (yi — 3.)?/[alb — 1)]. 
再 按照 ai 为 随机 效应 的 假设 ， 求 出 各 均 方 的 均值 ， 

E(Qo0) = aby? + ba2 十 c2， 

E(Q1) = bo? + o2, (9.4.5) 

E(Q2) = 02. 
我 们 看 到 ， 后 两 式 的 右 端 为 方差 分 量 cx 、o? 的 线性 函数 ， 令 E(Q1) = Qu i = 1 
2, 便 得 到 关于 o2 、o? 的 线性 方程 组 


| ba? +o? = Q1, 


解 此 方程 组 得 
32=Q, 62=(Q1-Q2)/b. 

它们 就 是 方差 分 量 cs 、o2 的 方差 分 析 估计 ( ANOVA 估计 ) . 

从 上 述 求解 过 程 ， 我 们 不 难 理解 文献 中 称 这 个 方法 为 方差 分 析 法 的 原因 . 

从 上 面 的 讨论 ， 我 们 可 以 把 方差 分 析 法 归纳 如 下 : 

(1) 对 一 个 方差 分 量 模型 ， 现 将 其 随机 效应 应 看 作 固定 效应 ， 按 通常 方差 分 析 
方法 算出 各 效应 对 应 的 平方 和 (或 均 方 ). 

(2) 求 这 些 平方 和 (或 均 方 ) 的 均值 (此 时 的 随机 效应 不 再 看 作 固定 效应 ), 他 们 
是 方差 分 量 的 线性 函数 . 

(3) 令 这 些 平方 和 (或 均 方 ) 等 于 它们 各 自 的 均值 ， 得 到 关于 方差 分 量 的 一 个 线 
性 方程 组 ， 解 此 方程 组 便 得 到 方差 分 量 的 估计 . 

现在 把 上 面 的 方法 用 于 一 般 的 混合 效应 模型 ， 为 简单 计 ， 考 虑 方差 分 类 模型 


=XB8+UE+Dotz+e， (9.4.6) 
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即 模型 (9.0.1) 中 大 = 3, 且 Vs = €3 = e. 关于 刀 , 2 和 的 假设 同 模型 (9.0.1)， 
改 记 o3 = co2 . 所 以 Cov(y) = o9UIU! + a8U2Us + 021 SZ(02). 
按照 前 面 的 步骤 ,暂时 视 6 、 £2 为 固定 效应 ， 对 总 平方 和 yy 作 平方 和 分 解 


yy = SSe+SSe +SSe + SSe, (9.4.7) 
这 里 SSp 为 模型 y=X68+e 中 有 的 回归 平方 和 
SSp = RSS(B) = PX'y, 其 中 = (X'X)-X'Yy, 
而 SSe 为 在 模型 y= XB + It +e 中 ， 消 去 8 的 影响 后 ，é&1 的 平方 和 
SSe, = RSS(6,6) ~ RSS(B), 
类 似 地 ， SSe 为 在 模型 y= XB+UiE1+Uzt2+e 中 ， 消去 和 6& 的 影响 后 ，& 


的 平方 和 
SS¢, = RSS(B,€1,€2) ~ RSS(B,&1), 


最 后 ， SS。 为 残 差 平方 和 
SS。 = yy — RSS(B,€1,€2). 
不 难 验证 
SSe =y Pxy, 
SSe =y (Px:u,) ~ Pr)y, (0.4.8) 
SSe = y(Pix:us:u,) ~ Pix:u))y, 
SS-y(I— Pax:u))y, 
这 里 Pa = 4(4'4)-A4, 即 为 4 的 列 空间 上 的 正 交 投影 阵 ， 且 rk(Pa) = rk(A4). 
接 下 来 计算 各 平方 和 的 均值 ， 此 时 ， 6l, 6 不 再 被 看 作 固 定 效应 ， 而 为 随机 效 
应 ， 先 计算 E(SSe,). 由 定理 (3.2.1) 有 


El(SSe,) = PX'(Px:u) — Px)XB 
+tr[(Pex:u,) — Px)(ofULU! + o2U2Us + o27). (9.4.9) 


由 于 (Pex:u) - Rx)X = 一 义 =0, 因 而 上 式 第 一 项 为 0, 利用 定理 (2.3.3), 即 正 交 
投影 阵 的 迹 等 于 它 的 秩 ， 于 是 有 


tr(Pox:u) ~ Px) = tr(Pix:m)) — tr (Px) = rk(X :0A) — rk(X). 
因此 (9.4.9) 可 写成 


E(SSe,) = a10? + (az — as)o? + r202, (9.4.10) 
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其 中 
a1 = tr[UUi(T — Px)], 
a2 = tr[U2U2(T — Px)], 
as = tr[V2U2(I — Pex:u,))], 
Ce 六 璐 oa 二 本 区 < 矶 大 


用 类 似 的 方法 可 以 证 明 
E(SSe) = a202 十 2 ， (9.4.11) 
E(SSe) = (n —r1 -72 — ra)o?, (9.4.12) 


这 里 rs 由 水 (XX : :U2) = ra+ra+rs 确定 ，n 为 y 的 维 数 . 
令 (9.4.10) 、 (9.4.11) 和 (9.4.12) 各 平方 和 的 均值 等 于 对 应 的 平方 和 ， 得 到 关 
于 方差 分 量 of 、o3 和 o2 的 线性 方程 组 


a10? + (aa — a3)o3 + r202 = SSe， 
a203 + 02 = SSe,, (9.4.13) 


(n—n—r2—r3)o? = SS。. 


解 此 方程 组 , 得 到 oz 、o3 和 o2 的 估计 . 它们 就 是 这 些 方差 分 量 的 ANOVA 估计 . 

更 一 般 地 , 对 方差 分 量 模型 (9.0.1), 设 9 = (Q@1,… ,Qk) 为 对 应 于 效应 6 6k 
的 均 方 ， 则 (gq) 为 o? = (o?,…,4) 的 线性 函数 ， 记 为 E(q) = hc?. 令 均 方向 量 
4 等 于 它们 的 均值 Ao?, 得 到 关于 o? 的 线性 方程 组 


4o2 = 了 . (9.4.14) 


当 |4| 关 0, 解 得 方差 分 量 的 估计 5? = 4A-1g, 且 已 (53) = 已 (4-19g) = 4 -14c2 = 02 
因此 只 要 |4| 关 0, 52 就 是 o? 的 无 偏 估计 . 
由 于 方差 分 析 法 给 出 的 估计 5? 作为 一 个 线性 方程 组 的 解 ， 他 们 未 必 是 正 的 . 

这 是 方差 分 析 法 的 一 个 缺陷 . 至 于 如 何 对 待 方差 分 量 的 负 估计 ， 目 前 尚 无 一 致 的 看 
法 .一 种 观点 认为 ， 若 某 个 委 < 0, 则 说 明 o? = 0 或 者 至 少 这 是 o? = 0 的 一 种 
证 据 ， 此 时 可 用 0 作为 o? 的 估计 .而 另 一 种 观点 认为 ， 发 生 这 种 情况 的 原因 是 数 
据 不 够 充分 .可 能 是 数据 不 多 或 不 够 “好 "”， 应 当 再 收集 一 些 数据 .再 有 一 种 看 法 
是 ， 这 是 方法 本 生 所 致 ， 此 时 应 改 用 其 它 方法 ， 如 极 大 似 然 法 ， 限 制 极 大 似 然 法 等 
等 . 当然 ， 目 前 较 难 下 结论 ， 认 定 哪 一 种 观点 是 对 的 . 关于 方差 分 析 法 的 改进 ， 近 
年 来 有 一 些 结果 ， 如 文献 [12] 及 [70] 等 . 
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对 于 一 般 的 混合 效应 模型 (9.0.1), 文献 中 也 称 上 述 方法 为 Henderson 方法 三 
( 见 文献 [98]), 即 拟 合 常数 法 (fitting constants method), 之 所 以 称 其 为 拟 合 常数 法 
就 是 因为 在 构造 估计 方程 时 ， 我们 把 随机 效应 看 成 固定 效应 即 常数 .对 于 平衡 数 
据 模型 ( 即 对 所 有 因子 的 水 平 组 合 ， 重 复试 验 次 数 相同 的 那 种 模型 ), 该 方法 的 平方 
和 分 解 (9.4.7) 是 惟一 的 ， 且 可 根据 方差 分 析 表 得 到 . 

例 9.4.2 ”两 向 分 类 混合 模型 

考虑 具有 交互 效应 的 两 向 分 类 模型 


Yijk = H+ ait p+ i + ik 
fi t+ bi + i + ei (9.4.15) 


和 
这 里 pai 为 固定 效应 ， 5j, xij 为 随机 效应 ， 并 满足 通常 的 假设 ， 即 所 有 的 6;, xij， 
eiik 都 不 相关 , 且 具 有 均值 为 0, 方差 为 Var(B;) = 08, Var(75) = 02, Var(eijk) = 02. 
暂时 视 B;, mij 为 固定 效应 ， 由 87.3 知 总 平方 和 有 如 下 分 解 


YY = SSu + SSa + SSe + SS + SSe, (9.4.16) 
这 里 
SS = abc 殉 ， ” ”自由 度 为 1 
SSa = be d(T -9.), 自由 度 为 a 一 1， 
SSp = acy (7 -3.)?, 自由 度 为 b 一 1， 
了 


SS = SSaxp =c<》 》 (yi 一 下 可 一 克 .)2， 自由 度 为 (a 一 1)(6 一 1)， 
3 


i 


Ss. = 5 5 Tyr -ny)’, 自由 度 为 ab(e 一 1). 
i 大 


对 随机 效应 的 平方 和 用 各 自 的 自由 度 去 除 ， 得 到 均 方 8，= SSe/( 一 D), Q2 = 
53y/(a 一 1)(b 一 1), Qs = 55。/[ab(e 一 1)], 求 出 它们 的 均值 ， 并 令 这 些 均值 等 于 对 应 
的 均 方 ， 得 到 关于 c3, o2, o2 的 线性 方程 组 
acog + co? +0? = Q1, 
co 十 o = Q2， (9.4.17) 
02 = Qs. 
解 此 方程 组 ， 得 到 方差 分 量 的 估计 : 
B=(Q1- Q2)/(ac), G2 = (Q2— Qs)/e, 
= Qs. 
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若 模型 (9.4.15) 中 as 也 为 随机 效应 ， 则 该 模型 就 变 为 一 个 随机 模型 ， 下 面 我 
们 来 考虑 这 种 情形 . 
例 9.4.3 ”两 向 分 类 随机 模型 (交互 效应 存在 ) 


考虑 随机 模型 
Yik= H+oait+B;+ Titejk i=1,..,a, 
了 = 

这 里 A 为 总 平均 ， 是 固定 效应 ， ai Di， yi; 都 为 随机 效应 ， 假 设 ai ~ N(0, o2)， 
Bi; ~ N(0, ca 4 ~ N(0, 02), eijk ~ NN(0, o2) 且 都 相互 独立 . 

根据 8 7.3 的 结果 ， 容 易 得 到 yy 与 (9.4.16) 有 相同 的 分 解 : 

yy = SS, + SS +SSg+SS, 十 SS。 

abcy. + 人- -于 tel, -本 


+ - Dj. 7D. + EF- 及 
届 访 


自由 度 分 别 为 la 一 1, 5 一 1, (a 一 1)(b 一 1), ab(c 一 1). 对 随机 效应 的 平方 和 用 各 自 的 
自由 度 去 除 , 得 到 均 方 Qi = SSa/(a- 1), 82 = SSp/(b-1), Qs = SSy/(a—1)(b—1), 
Qa = SS。/[ab(c 一 1)], 求 出 它们 的 均值 ， 并 令 这 些 均值 等 于 对 应 的 均 方 ， 得 到 关于 
02，03, 02, 02 的 线性 方程 组 


外 


bca2 + co2 +02 = Qi， 
aco$ + co? +02 = Q2， Loa 
co2 +02 = Qs, 
E@u 
解 此 方程 组 的 解 为 
32 = (Q1 — Qs)/(be), 
B= (Q2 — Q3)/(ac), 
32 = (Qs — Qa)/e, 
B=0Q 
它们 是 ca, o3, o3, o2 的 方差 分 析 的 估计 . 与 例 9.4.2 相 比 ， 我 们 不 难 发 现 ,两 例 中 
关于 o3, o2, o2 的 估计 相等 . 
若 ! 服从 正 态 分 布 ， 则 32, 23, 62, 22 这 些 估计 也 是 MVU(minimum variance 
”unbiased) 估计 .这 结论 对 于 许多 常见 的 随机 模型 成 立 证 明 参 见 文献 [48]. 
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89.5 极 大 似 然 估 计 


对 一 般 的 混合 效应 模型 ， 上 节 讨 论 的 方差 分 析 法 只 能 给 出 方差 分 量 的 估计 . 本 
节 将 介绍 的 极 大 似 然 法 则 不 然 ， 它 能 同时 获得 固定 效应 和 方差 分 量 的 估计 . 
我 们 考虑 一 般 的 混合 效应 模型 


y= XB+Ué1 + + Urék, (9.5.1) 

这 里 假设 各 ~ N(0, cg1s), i = 1,…,k 所 有 6 都 相互 独立 记 Vi = UiD1, 0? = 
(oF?,…,0%)', 于 是 

大 大 

Cov(y) = orUiU! = Yo?V; S 2(o?). 

i=1 i=1 
我 们 假设 2(o*) > 0, 因此 y ~ Na(0, (0”)), 所 以 未 知 参数 8, of,…,o% 的 似 然 函 
数 为 

Lo) = (a7) SE(o) td exp { ~ 3(y ~ XB)'T(o") 1(y ~ XB))}, 

取 对 数 ， 略 去 常数 项 及 常数 倍 ， 得 


1(B, oly) =—InlZ(o®)|- (y— XB)'T(o)-!(y — XB) 


(9.5.2) 
=—In|2(0°)|— trZ(o?) 1(y — XP)(y ~ XB)’. : 


利用 如 下 事实 (参见 §2.7 ( 例 2.7.15 和 例 2.7.16)): 


中 猴 =4 
2) 如 Azr i 
1 
G ,2 = -A(O™ A), 


0 
(4) 到 4() 三 本 [onas] 


这 里 A(t) 是 矩阵 ， 它 的 元 素 为 的 函数 . 
我 们 可 得 


2 = -akzlo9-+ataloo-gz(o-0Gg ~ XB)(y Xp 


al 


三 = ~—2X'T(o°) 1XB +2X'5(0°) -1y. 
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令 这 些 导数 等 于 零 ， 得 到 似 然 方程 


"DZ(o2)-IXB = XT(o) 1y, (9.5.3) 
tr(ViZ(o)-!) = (y — XB) (EL(o*) -VD(o)-)(y — Xp), 
t= 1 ,k. 
下 面 我 们 可 以 把 这 个 方程 进一步 简化 ， 因 为 
trfw2(c3)-] = tr(ViZ(o?)-!2(0?)2(o’)-!) 
k 
= tpzlo V2") lo?, 
且 不 难 证 明 (9.5.3) 的 第 一 方程 等 价 于 
XB = X(X'T(0") -1X)- XT(0) -1y S Poy, 
于 是 似 然 方程 可 变形 为 
XB = X(X'D(o2)-1X)-X'D(a2)-1y， 
六 tr[ViD(o) -VD(o?)-!]o? (9.5.4) 
j=1 
=Yy(T—P)(Z(o) Vo) I -Py i=1,..,k. 
车 记 
H(o?) = (hij(0?))kxk, 
hiz(0?) = tr[ViZ(o?) V2(0?) 7], 
h(y,0°) = (hi(y,0?))kx1, 
hi(y,0°) = YT Ps)'(EFlo*) VE) - P,)y, 
则 (9.5.4) 可 写成 为 
| 2 (9.5.5) 
H(o?)o? = h(y, 下 凤 : 


这 就 是 我 们 要 求 的 似 然 方程 ， 由 (9.5.4) 的 第 一 方程 ， 任 意 可 估 函 数 c8 的 ML 估 
计 为 "852) = X(X'2(6?)-1X)-X'2(67)-1y, 其 中 2 为 o2 的 ML 估计 . 

在 一 般 情况 下 ， 似 然 方程 (9.5.5) 没有 显 式 解 . 即便 在 有 显 式 解 的 情形 ，o? 的 
解 未 必 是 非 负 的 ， 若 为 负 值 ， 它 就 没有 落 在 参数 空间 内 ， 所 以 并 不 是 ML 估计 .这 
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时 ， 一 般 采 取 截 断 法 ， 即 取 max{58,0} 作为 ML 估计 ， 在 没有 显 式 解 的 情形 只 能 
用 迁 代 法 求解 . 
Anderson 等 [9] 提出 一 种 迭代 法 是 


HD = HOF ™) hy, 0 0™)), 


这 里 332" 为 o? 的 第 mm 次 选 代 值 6?("™. 当 52 的 两 次 相 邻 选 代 值 相差 不 大 时 ， 
迭代 停止 ， 这 就 得 到 了 方差 分 量 的 估计 .代入 (9.5.5) 的 第 一 方程 ， 便 可 得 到 固定 
效应 的 估计 . 

另外 一 种 闪 代 法 是 由 Hartley 和 Raolesl 提出 的 ， 其 推广 形式 是 


B62 (m+l) ~ 82(m). hi(y,52(™)) 
(BT 


这 个 迭代 的 一 个 好 处 是 ， 当 初始 值 为 非 负 时 ， 后 面 的 迭代 值 永远 不 会 取 负 值 . 同 
样 , 这 个 迭代 的 收敛 问题 还 没有 解决 . 另外 还 有 一 些 选 代 方法 ,如 Newton-Raphson 
方法 ， 得 分 方法 ， 以 及 近年 来 提出 的 一 种 有 效 的 新 的 迭代 方法 ， EM 算法 ， 有 兴 
趣 的 读者 可 参阅 文献 [96]. 

例 9.5.1 单 向 分 类 随机 模型 

考虑 单 向 分 类 随机 模型 


Vi=htamteys, i=l,,a j=1,…,m, 


这 里 as 为 随机 效应 ，ai ~ N(0, cz), eij ~ N(0, o2), 且 所 有 aiveij 都 相互 独立 . 因 
为 ni 不 必 相等 ， 所 以 这 是 非 平衡 模型 ， 不 难 验证 


Z(c?) = oelIn + 02diag(ni Jn, ,+ ,nan,), 


这 里 帮 ,=1%14/m mn= 宫 m 于 是 


i=,k, 


jalcal = o2 "9 Te? + wa) 


区 1 本 
zto)-1 = ean tdiog( (Fp ngs 一 让 7 ， 
2 oe 


1 和 
(8 +nac2 Ne 2) 71.), 
似 然 函数 的 对 数 为 
InL(p,02,02ly) = e— Bn 0) nd 3 > In(c2 + nig2) 


202) -太一 


2 + no 
1 j=1 I Fe + noa 
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对 4、o2 、o2 求 导 并 令 导 数 等 于 零 ， 得 到 似 然 方 程 


ni (本 一 有 2?) _ 
这 些 方程 也 可 以 直接 由 (9.5.5) 得 到 . 很 显然 ， 这 个 方程 组 没有 显 式 解 ， 可 以 用 迭 
代 法 求解 . 
但 对 于 m = … = na = 的 平衡 情形 ， 容 易 得 到 上 面 方程 组 的 显 式 解 


n—a 2 Fz2)-1 可 
a -于 志 甸 二 
放 


= 


2 = (wn)/la(b— = Q, 
a] 
Q 一 1 


82 = DD ~ 9) /0d) -08/0= 0 — $02. 
未 说 


与 $89.4 方差 分 析 法 的 结果 相 比 , 只 有 o2 的 估计 是 相同 的 . 显然 ，52 可 能 取 负 值 . 
这 个 例子 表明 ， 似 然 方 程 的 解 未 必 为 参数 的 ML 估计 ,在 应 用 上 ,采用 max{52,0} 
作为 o2 估计 . 
例 9.5.2 ”两 向 分 类 混合 模型 
对 两 向 分 类 混合 模型 
Yj=p+athBt+es, i=1,.…,a,j=1,.…,b, (9.5.6) 


这 里 ps, ai 为 固定 效应 ， 6; 为 随机 效应 ， B; ~ N(0, o3), ei; ~ N(0, o2), 且 所 有 
Bj, ei; 都 相互 独立 ， 该 模型 的 矩阵 形式 为 


y= Xip+ Xa + UB+e, (9.5.7) 
我 们 可 以 用 Kronecker 乘积 表示 设计 阵 X1, X2 和 U: 
Xi1= 1 = 10®1,, 
X2 = lo = 1a ® 1s, 
U=1,8®L. 


固定 效应 的 设计 阵 为 X = (Xi ; X2), 协 方差 阵 为 (0?) = a31o14@ +o2124. 显 
然 M(X1) c M(X2), 于 是 我 人 有 Px = Px = 1。@ ,这 里 无 = 1614/b. 不 难看 
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出 Px2(o?) = (ao3 十 02)Js@ 于 对称 ， 因此， 固定 效应 jp, ai，…,aa 的 LS 解 也 是 
似 然 方程 (9.5.5) 的 解 . 因此 (9.5.5) 的 第 一 方程 为 XX 及 + Xo = Px y. 将 其 代入 
(9.5.5) 的 第 二 方程 ， 我 们 得 到 


+ 人 = DE > Wt 


容易 求 得 上 面 方程 组 的 显 式 解 


1 
= Gm Ls = 
重 了 


和 上 例 一 样 ， 53 也 可 能 取 负 值 . 
对 于 平衡 数据 ， 例 9.5.1 与 例 9.5.2 似 然 方 程 的 显 式 解 都 存在 ， 但 我 们 并 不 能 
推广 这 个 结论 到 一 切 平衡 数据 的 混合 效应 模型 ， 下 面 一 个 例子 便 是 一 个 反例 . 


例 9.5.3 ”两 向 分 类 随机 模型 (交互 效应 存在 ) 
考虑 随机 模型 


Yijk = H+ oit Bj + ii + Eijks 
证 一 f=,bl, k=1,..,c, 


这 里 / 为 总 平均 ， 是 固定 效应 。 ai, B;, ?75 都 为 随机 效应 ， 假 设 as ~ N(0, o2), 
~ NN(0, 08), 7 ~ N(0, 02), eijk ~ N(0, o2) 且 都 相互 独立 .该 模型 的 矩阵 形式 
为 
y= Xpy+Uat+UB+ Usy+e, 


这 里 
X=le@ebe@el- Ui=l ll1, Us=1 81, U=1, 81,®1, 
其 协 方差 阵 为 


39 = 0 Bll oll +ol oho ll + he 3 
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易 证 Pk2(c2) 对 称 ， 故 /为 ML 估计 等 于 LS 估计 ， 户 = 144cy = 可 此 外 ， 
zcz)-1 = 二 @h (lJ)+ re A A 


六 本 各 全 
(la)Oh®. 
Tt hs 


主 


nh 8 (1 J)® J 
+ 二 元 ee 


tpcoz T+ aca3 十 co3 十 pa he 
我 们 将 其 代入 (9.5.5), 化 简 得 


bco?2 +co2+02= Qi1— A, 
aca$ + co? + 0? = Q2 — A2, 
co2 +02 = Q3— As, 


= 


其 中 


入 二 (beo2 + ca? + o2)? 
(a—1) beoa +acod + co + oo’ 


ER (aca3 + ea? +o2)? 
(b—1) beco2 +acos 十 co3 十 o2” 
1 (co? + 02)? 
(一 1 他 一 1) beo2 十 aco3 十 co3 十 3 


很 显然 ， 此 方程 组 没有 显 式 解 ， 尽管 与 上 面 两 个 例子 一 样 ， 固 定 效应 的 ML 估计 与 
方差 分 量 无 关 . 此 例 表 明 并 非 所 有 平衡 数据 的 混合 效应 模型 都 存在 ML 显 式 解 . 对 
平衡 数据 的 混合 效应 模型 ， 关 于 似 然 方程 显 式 解 存在 性 问题 , 文献 中 已 有 一 个 的 判 
定 定理 ， 有 兴趣 的 读者 可 参阅 文献 [102] 或 [96]. 


As = 


$9.6 ”限制 极 大 似 然 估计 


方差 分 量 的 ML 估计 的 一 个 缺点 是 在 导出 方差 分 量 的 估计 的 过 程 中 , 我 们 没有 
考虑 到 固定 效应 8 的 估计 所 引起 的 自由 度 的 减少 . 为 此 ，Patterson 和 Thomponls6] 
提出 的 一 种 修正 方法 ， 称 为 限制 极 大 似 然 法 (restricted (or residual) maximum like- 
lihood 简 记 为 REML). 该 方法 的 思想 是 基于 LS 估计 残 差 ， 利 用 极 大 似 然 法 导出 
方差 分 量 的 估计 . 与 ML 估计 相 比 ， REML 估计 的 偏差 减少 很 多 ， 且 对 于 许多 常 
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见 模型 ， REML 方程 的 解 与 方差 分 析 法 所 得 的 估计 相等 ， 当然， 在 一 般 情 况 下 ， 
REML 方程 的 求解 只 能 依赖 于 迭代 法 ， 其 迭代 的 收敛 性 问题 依然 存在 . 


我 们 考虑 模型 (9.5.1) 


大 
y= XB+e, se= DUé~N(O, D0)), (9.6.1) 
t=l1 
这 里 2 二 (o?,.…,08) Poa) = 立 o8UiU1 = 次 ofVi > 0. 该 模型 的 最 小 一 乘 估计 
i=1 tl 
的 残 差 为 Nx y, 其 中 Nx = In 一 六 (X'X)-X'. 假设 六 为 n xp 向量，rk(X)=7， 
则 rk(Nx) = 一 rk(X) = 一 x 即 Nx 的 列 向 量 中 仅 有 六 -> 个 线性 独立 向 量 ， 
我 们 可 用 这 n 一 + 个 线性 独立 向 量 作为 列 向 量 ， 得 到 一 个 nx (n 一 7) 列 满 秩 阵 8， 
显然 
NxB=B, B'X=0. 
人 因此， By ~ N(0， B’y(o?)B), 且 B'z(o?)B>0. 记 B= (B17 bn-r), 则 其 三 
UNx 故 B'y 的 每 一 个 元 素 by, 实际 上 ， 就 是 一 个 误差 对 照 ， 方 差分 量 的 REML 
估计 就 是 对 By 求 未 知 参数 0? 的 ML 估计 ， 下 面 我 们 导出 限制 极 大 似 然 方程 组 
了 By 关于 方差 分 量 o2 的 对 数 似 然 函 数 为 


家 
l(a?|B'y) = -5 r)In27 一 了 mlB'2c3)B| 一 By B(B'T(0")B)-1B'y. (9.6.2) 


我 们 记 
y=By, X*=BX=0, Vi= BVB, 
大 大 
Zr(c) = BZ(o)B= ,0BVB= ov. 
i=} i=1 


直接 套用 (9.5.3) 得 限制 极 大 似 然 方程 组 


tr (VD"(0®)) = y" 2D*(o) VE (0) ly, =1,..,k, 


即 
tr(ViB(B'Z(o")B) 1B’) = yB(B'T(o?)B)-1B'VB(B'T(0)B)-1B'Yy, i=1,...,k. 
(9.6.3) 

记 Mo = B(B'Z(o?)B)-1B', 可 以 证 明 
Mo = ZE(0°) — Blo) IX(X'T(o) IX) XD(o?)-!, (9.6.4) 


因此 
= (os ~ Py) = (1 — Ps)'P(o?), 
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这 里 P 如 89.5 所 定义 于 是 (9.6.3) 等 价 于 
tr(ViMa) = (In — Py) (VD(o) (I — Py)y, 1 (9.6.5) 


利用 关系 Mo2(o?) Mo = Mo, 我 们 容易 证 明 限制 极 大 似 然 方程 可 写成 


大 
Dtr(ViZ(o) -HI — PVE(o) (1, - Py)'oy 
= (9.6.6) 


= Vln— Po)D(o) VP) (I — Po)y, i= 1 ,k. 


将 (9.6.6) 与 极 大 似 然 方程 组 (9.5.5) 相 比 ， 对 于 每 个 i, 两 方程 的 右边 相等 ， 且 若 将 
(9.6.6) 左边 的 投影 阵 1 一 P 换 成 单位 阵 , 便 可 得 到 极 大 似 然 方程 组 (9.5.5) 中 的 
相应 方程 注意 到 (9.6.6) 不 包含 B, 尽管 在 推导 (9.6.4) 利用 了 B, 但 (9.6.4) 等 式 
成 立 于 B 的 选择 无 关 ， 仅 要 求 B 为 mn x (n ->) 列 满 秩 矩 阵 ， 且 B'X = 0. 因此 ， 
限制 极 大 似 然 方程 与 具体 B 的 选择 无 关 . 

(9.6.6) 通常 没有 显 式 解 ， 我 们 可 以 利用 解 似 然 方 程 的 迭代 技巧 来 求 得 其 迭代 
解 . 

例 9.6.1 ”两 向 分 类 随机 模型 (交互 效应 存在 ) 


Yijk = AH + Bj + ij + Eijks 


"0 j=,b,1, k=1,.,¢0 


这 里 4 为 总 平均 ， 是 固定 效应 ， oi,pB;yyi; 都 为 随机 效应 ， 假 设 ai ~ N(0, o2)， 
B; ~ NN(0, 08), Yi ~ 入 (0, 03), eijk ~ NN(0, o2) 且 都 相互 独立 .该 模型 的 矩阵 形式 
为 
y= Xpy+ Uat+U2B+ Usy+e, 

这 里 X=1@81l6@16 Ui =I@l@l,U=1 8h8l,U0=1 hol 方 
差 阵 

2(c2) =021, 8 11 1l+ ogB1als @ TB1l+ 021, ® Jo ® 1o1’ + 02 Tape. 

易 证 Px2(o?) 对 称 ， 依 (9.15), 它 等 价 于 


直接 代入 限制 极 大 似 然 方程 (9.6.6) 得 


人 = 等 = 


1 sel 
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(a— De- De , (eo— De , LO-Y)e 


al a2 


= 党 ‘FF - T+.) 


3 i=1 j=1 


b 
着 二 二 C 7 \2 
= = Was 
可 bp + 可 3 oA) 


a b e 


ae-D Ce-De-D a-l, 1 
二 二 环 寺 = 区 a Vijk — Dj,)? 
b 
E22 .++ 三 和 -5.) "+ 训 沁 0 D3 —D.), 
3 1=1 j= 2 j=1 
这 里 
a? = bco? + co? + 02, 
a2 =aco$ +co? +o2, 
a$ = co2 +02, 
of =02, 
我 们 记 
Qi = D5/ -1), 
b 
Q2 = DT; -5..)/ac(b — 1), 
b 
Qa = +.) /D6 -1), 
和 
a bb 
Q4= 艺 (yijk — Ti.)*/ab(c — 1), 
大 1 和 1 
则 上 方程 组 可 简化 为 


beo?2 +co2 +o? = Q1, 
aco$ + co2 +0? = Q2, 
co2 +02 = Qs, 
只 = Qa. 


这 与 方差 分 析 法 所 得 到 的 线性 方程 组 相同 ,因此 限制 极 大 似 然 方程 的 解 与 ANOVA 
估计 相同 .对 平衡 数据 的 混合 效应 模型 ， 这 种 现象 通常 成 立 ， 见 文献 [47]. 
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方差 分 量 的 最 小 范 数 二 次 无 偏 估计 (minimum norm quadratic unbiased estima- 
tor, 简 记 为 MINQUE) 是 由 C.R.Rao 于 20 世纪 70 年 代 初期 提出 的 ， 他 所 采用 的 
做 法 与 前 面 提 到 的 方法 截然 不 同 ， 因 为 ANOVA 法 ， ML 法 和 REML 法 都 是 先 按 
已 有 的 一 定 程式 去 求 估 计 ， 至 于 所 得 估计 有 何 性 质 ,事先 并 不 知道 . 而 最 小 范 数 二 
次 无 偏 估计 的 基本 思想 是 先 提出 估计 应 具有 的 性 质 ， 然 后 把 为 满足 这 些 性 质 所 加 
的 条 件 提成 一 个 极 值 问题 即 所 谓 最 小 迹 问题 (minimum trace problem). 解 所 得 的 
最 小 迹 问题 ， 便 得 到 所 要 的 估计 . 

考虑 最 一 般 形式 的 方差 分 量 模型 


y= XB+Ué1 + + URék, (9.7.1) 


这 里 Xnxa Ui,nxt; 为 已 知 设计 矩阵， 8 为 p x 1 固定 效应 向 量 ， & 为 刀 x1 随 
机 效应 向 量 ， 满 足 已 (6) = 0 Cov(&) = ?Te， 6 都 不 相关 ， 往往 Uk = 有 人 = 
叭 = os > 0 即 最 后 一 项 为 随机 误差 . 若 记 


U=(0: Ua: i: Up), € = (61,62, ,6h), 
则 模型 (9.7.1) 可 改写 为 


y= XB8+Ué, E(y) = Xb, (9.7.2) 


大 
Cov(y) = Do?Vi Sz, 


i=1 

其 中 VW = UiU4, 我 们 的 基本 目的 是 估计 方差 分 量 o?,… ,0? 及 其 线性 函数 wp = c'0?， 
这 里 o? = (o9,…,o2)', ec = (cl ,ck). 

我 们 先 看 所 求 的 估计 量 应 具有 的 一 些 性 质 ， 因 为 现在 要 估计 的 参数 是 方差 ,所 
以 自然 考虑 二 次 型 估计 wy Ay, 这 里 4 为 对 称 阵 , 我 们 要 求 这 个 估计 具有 下 述 性 质 . 

(1) 不 变性 即 估计 yy hy 关于 参数 8 具有 不 变性 . 

若 将 6 平移 得 到 ?7 = 8 一 Bo, 此 时 模型 (9.7.2) 变 为 3 一 Xpo = XYy+ U6, 那么 二 
次 型 估计 就 变 为 (y 一 Bo) A(y 一 义 Bo), 我 们 要 求 对 一 切 Bo, (y 一 Xpo)'4(y 一 区 Bo) = 
Ay, 这 个 要 求 是 合理 的 . 因为 现在 待 估计 的 p = cc2 是 方差 分 量 的 线性 函数 ， 所 
以 ， 它 的 估计 量 应 该 与 已 (y) = XB 无关， 由 于 


(y— Xbo) Aly — XBo) =Y Ay— 2y AXPo + BOX'AXPo, (9.7.3) 


欲 使 (y 一 0)'A(y 一 X60) = yAy 对 一 切 的 fo 成 立 ， 当 且 仅 当 4X = 0. 这 个 事 
实 的 充分 性 是 显然 的 ， 至 于 必要 性 ,注意 到 (9.7.3) 右 端 后 两 项 是 Bo 的 多 项 式 ， 要 
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它 人 恒 等 于 零 ， 其 系数 必 等 于 零 ， 即 4X = 0. 于 是 二 次 型 估计 要 满足 不 变性 当 且 仅 
当 AX =0. 

(2) 无 偏 性 ”我们 在 满足 不 变性 的 前 提 下 考虑 二 次 型 估计 = yAy 的 无 偏 性 . 
此 时 依 定理 (3.2.1) 有 


k 
E(y Ay) = P'X’AXB + tr(AT) = ,oftr(AV). 
i=1 


所 以 B(y Ay) = 92 = co?, 对 一 切 o? 成 立 ， 当 上 且 仅 当 


tr(4V) = ci i= Lk (9.7.4) 


(3) 最 小 范 数 准则 
可 以 设想 , 若 志 x1 的 向 量 6&6,i= 1 ……,K 千 已 知 那么 o? 应 该 用 &'€/t; 来 估 
计 . 于 是 p= ec? 的 自然 估计 为 
af 人 (又 ) +a( 色 ) +.ta() Seat, (9.7.5) 


此 处 
站 C1 
A 一 diag( 呈 人 全 和) 


现在 若 用 y Ay 去 估计 p = cc?, 在 满足 不 变性 的 条 件 下 ， 
yAy = €U'AUE. (9.7.6) 


欲 使 yhy 为 一 个 好 的 估计 ， 那 么 自然 对 一 切 &, (9.7.5) 和 (9.7.6) 应 该 相差 很 小 ， 
即 矩 阵 UAU 与 A 在 某 种 意义 下 相差 很 小 ， 若 用 矩阵 范 数 ||U'AU - Al|| 来 度量 
UAD 与 A 相差 大 小 ， 则 我 们 应 该 选择 4 极 小 化 范 数 IU'4U - Al|. 
综合 上 面 三 条 要 求 ， 我 们 给 出 如 下 定义 . 
定义 9.7.1 ” 若 线 性 函数 p = c'c2 的 估计 yAy 满足 
4X =0, 
tr(AVi) = ci, i=1,.…,k, 


且 使 范 数 IIV'4U - Al| 达到 极 小 ， 则 称 为 的 最 小 范 数 二 次 无 偏 估计 (MINQUE). 
这 里 采用 加 权 欧 氏 范 数 ， 令 权 矩 阵 W = diag{o8116,,…,08416} 其 中 08; 为 
中 的 一 个 预先 指定 值 ( 先 验 值 ), 因此 W 也 就 是 Cov(€) 的 一 个 预先 指定 阵 ( 先 验 
阵 ). 定义 已 = W3#(U'4U ~ A)W#, 则 加 权 欧 氏 范 数 
lV'AU — All=tr(F'F) =trWi(V'AU — A)W(V'AU ~ A)W] 
=tr(WIVAUWU' AUW3) ~ 2tr(WIU'AUWAW3)+ tr(AW)?. 
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利用 无 偏 性 ， 上 式 第 二 项 


tr(WIU’AUWAWS)=tr(U AUWU'AAW) 
k 204 
i100, 


大 ciok 
= tr(AV) = =tr(AW)?. 


i=1 i=1 


再 记 WW = 人 08Vi 因 为 令 = 丽 ,V0, 且 08 > 0,084 之 0, 所 以 V > 0. 于 是 
i=1 
IIV'AU — Al| = tr(AV,)? — tr(AW)?. 
这 样 ， 对 加 权 欧 氏 范 数 求 p = cio? 的 MINQUE 的 问题 ， 归 结 为 求 下 述 极 值 的 解 
min tr(AV,)? 
{ AX=0 
tr(AV) = coi = 1,.……, k. 


(9.7.7) 


它 的 目标 函数 是 矩阵 的 迹 ， 所 以 称 (9.7.7) 为 最 小 迹 问题 . 

剩 下 的 问题 是 , 极 值 问题 (9.7.7) 的 解 是 否 存在 ? 如 果 存在 的 话 , 它 等 于 什么 ? 
下 面 的 定理 圆满 地 回答 了 这 个 问题 . 

定理 9.7.1 ” 极 值 问 题 (9.7.7) 的 解 为 


大 
4"=Bu 位 人 可 Bu， (9.7.8) 
i=1 


其 中 
Bu = Vi! — VilX(XVEX)- XV!, (9.7.9) 


且 和 ,i=1,…, 上 为 方程 组 


大 
Dr(BoViBoVN = ec, j=1,..,k (9.7.10) 


i=1 


的 解 ， 这 里 Vi = UiUi ,V = 六 人 


i=1 
前 面 已 指出 过 ，V。> 0, 于 是 Vz! 存在 如果 做 变换 4 = VAV3, 访 = 
Vo ViVa 4 诗 = Va3X, 极 值 问题 (9.7.7) 等 价 于 
min trA? 
{ AX=0 
tr(AV) = ci = 1,..,k. 
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为 符号 清晰 ， 我 们 略 去 “ ~ ”得 到 
min trA? 


AX=0 
(9.7.11) 
tr(AV) = ci, i=1,.,k. 


相应 地 ， 证 明定 理 9.7.1 等 价 于 要 证 明 如 下 定理 . 
定理 9.7.2 ” 极 值 问 题 (9.7.11) 的 解 为 


天 
A=N I's XV ) N, (9.7.12) 
i=1 


其 中 N= 了 一 久 (X'X)-XX, 和 i, i = 1,…, 上 为 方程 组 


天 
和 tr(NWNW)N = j= k (9.7.13) 
i=1 
的 解 . 
证 明 ”证 明 分 两 步 . 
(1) 先 证 方程 组 (9.7.13) 相 容 ， 设 4o 满足 (9.7.11) 的 约束 条 件 ， 
tr(AoV)=c;, j=1,.…, hk, (9.7.14) 
AoX =0, (9.7.15) 


由 (9.7.15) 知 M(A6) C M(X)+, 因 N 为 往 M(X)+ 上 的 正 交 投影 阵 ， 于 是 40 = 
AoN = N4oN. 记 了 从 =NWN 0 = 4， 有, 则 (9.7.14) 变 为 


=tr(AoV) = tr(N4oNW) = tr(AoV), j=1.,k. (9.7.16) 
记 gi = Vec(V?), go = Vec(Ao), Pa 为 往 子 空间 M(4) 上 的 正 交 投影 阵 ， 定 义 


1 = Pq,gs)go 
U2 = go — ul. 
则 存在 常数 六 ,… ,总 , 使 得 
k 
入 汪 | Xe 
i=} 
所 以 
天 
= + us = Mg: + wu, 
i=1 


Wg9i =0,， j=1,.,k. 
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从 (9.7.16) 有 


k 
许 tr(AoV7) = go9; = 位 Mg!+ “) 性 
六 大 
Mg!g; = Pete) 厄 )= MNVNV), j=1,.,k. 


i=1 


这 就 证 明了 交 ,… ,总 为 (9.7.13) 的 一 组 解 . 

(2) 证 明 4" 为 (9.7.11) 的 解 . 容易 验证 4* 满足 (9.7.11) 的 约束 条 件 . 如 4 为 
另 一 个 满足 (9.7.11) 约束 条 件 的 对 称 方 阵 ， 记 D = 4 一 4*, 则 DD 对 称 ，DX =0， 
tr(DW)=0, 且 ND=D. 于 是 


py tr(NV;ND) = bp tr(NV;D) = Dy jtr(ViD) = 0. 


j=1 j=1 j=l 


利用 这 个 事实 ， 得 


k 
tr(42) = tr(4" +D)(A* + D)=tr(4°)?+tr(D)? > tr(4*)2. 
j=1 
等 号 成 立 的 充分 必要 条 件 为 D = 0, 即 4 = 4*. 这 就 证 明了 4* 是 (9.7.11) 的 解 . 
定理 9.7.3 ”对 方差 分 量 模型 (9.7.1), 线性 函数 p = co? 的 MINQUE 为 c'52， 
其 中 22 为 线性 方程 组 


Ho?=4d (9.7.17) 
的 解 ， 这 里 
H=(hi)kxk, hij=tr(BuViBwy), 对 一 切 i,j， (9.7.18) 
di 
d=| : |, di=yB,ViBoy, i=1,.…,k, 
dk 


Bw 由 (9.7.9) 所 定义 . 
证 明 ” 依 定 理 9.7.1 p = cc2 的 MINQUE 为 


天 
= DNy BuViBuy = Xd, 
i=l 
这 里 X = (和 1,…, 和 #) 满足 (9.7.10), 即 HA =c， 入 = 五-c, 再 利用 五 的 对 称 性 ， 
有 
yA'y=eH-d= 00. 
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定理 证 毕 . 

车 五 可 逆 ， 则 线性 方程 组 (9.7.17) 有 惟一 解 9? = (38 28) = 及 1d. 与 方 
差分 析 法 类 似 ， MINQUE 也 不 必 为 非 负 估计 ， 于 是 如 何 修正 MINQUE 以 便 得 到 
非 负 估计 在 文献 中 也 颇 受 人 们 的 注意 . 

另外 ， 注 意 到 线性 方程 组 (9.7.17) 的 等 价 形式 为 


Dr(BoviBe) =yBuViBoy, i=1,.…,k, (9.7.19) 
j=1 
这 里 Bu = Vo!(T - X(X'VEIX)-XV!) = (I — VFIX(X'Vz1X)-X)Vz1, 用 
习 取代 方程 组 (9.7.19) 中 的 Vi, 便 可 得 到 REML 方程 组 (9.6.6)， 两 者 区 别 在 于 
(9.7.19) 中 ， Vi 是 已 知 的 ， 可 直接 解 出 方程 组 的 解 ， 即 MINQUE, 而 (9.6.6) 中 ， 
中 含有 未 知 的 方差 分 量 ， 因 此 通常 限制 极 大 似 然 方程 组 只 能 用 大 代 法 求解 . 

如 前 面 已 提 到 的 ， MINQUE 的 权 和 矩阵 W 中 的 o3; 为 o? 的 先 验 值 ， 当 我 们 
没有 关于 o? 的 任何 先 验 信息 时 ， 我 们 就 令 c8; = 1 i = 1,…,k, 即 权 和 矩阵 W = 了， 
这 就 是 Raol3o] 所 讨论 的 欧 氏 范 数 . 

除了 MINQUE 之 外 ， Rao 还 研究 了 不 具有 不 变性 或 无 偏 性 的 最 小 范 数 估计 
以 及 最 小 方差 二 次 无 偏 估 计 (minimum variance quadratatic unbiased estimator, 简 
记 为 MIVUE), 见 文 献 [94]. 

例 9.7.1 ”固定 效应 模型 误差 方差 的 MINQUE. 

我 们 曾 指出 ， 固 定 效应 模型 


2=X8+e，Ee=0， Cov(e) = o27n 


可 以 看 作 方 差分 量 模型 (9.7.1) 的 特殊 情形 ， 0 = … = U1 =0, Uk = ,6k =e. 
容易 验证 o? 的 MINQUE 为 


yA'y=y Ny/(n—r) = ly XH/(n 7) =0°, 


这 里 > = rk(X) = (X'X)-X' 为 B 的 LS 估计 于 是 在 第 四 章 我 们 所 求 的 误差 
方差 o? 的 LS 估计 是 MINQUE. 

到 现在 为 止 ， 我 们 讨论 了 ANOVA 估计 、 ML 估计 、REML 估计 、 和 MINQU 
估计. 这 些 估计 不 同 程度 地 存在 一 些 缺 点 ,例如 ，ANOVA 估计 和 MINQU 估计 不 
能 保证 估计 的 非 负 性 ， 而 ML 估计 和 REML 估计 都 需要 求解 非 线性 方程 组 ， 一 般 
没有 显 式 解 ， 只 能 获得 迭代 解 . 此 外 ， MINQU 估计 很 强 地 依赖 初始 值 的 选取 ， 人 
为 主观 随意 性 较 大 . 

最 近 , 王 松 桂 和 和 尹 素 菊 Ro) 提 出 了 同时 估计 固定 效应 和 方差 分 量 的 一 种 新 方法 ， 
称 为 谱 分 解 估计 (spectral decomposition estimate, SD 估计 ). 新 方法 能 给 出 固定 效 
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应 若干 个 SD 估计 ， 它 们 都 是 线性 无 偏 估计 . 而 方差 分 量 的 SD 估计 是 二 次 不 变 
无 偏 估 计 ， 且 在 任何 情况 下 ，SD 估计 和 ANOVA 估计 一 样 都 有 显 式 解 . 当然 ， 方 
差分 量 SD 估计 也 不 能 保证 估计 的 非 负 性 ， 这 是 它 的 一 个 缺点 。 Wu 和 Wangtgl 
证 明了 对 一 些 模型 方差 分量 SD 估计 和 ANOVA 估计 相等 ， 从 而 方差 分 量 的 SD 
估计 具有 ANOVA 估计 的 一 些 优良 性 . 关于 这 个 估计 的 更 深入 性 质 还 有 待 进一步 
研究 . 


89.8 方差 分 量 的 检验 


在 这 一 节 , 我 们 考虑 方差 分 量 的 检验 问题 , 主要 介绍 一 种 最 常见 的 方法 ， Wald 
检验 ， 它 与 89.4 讨论 的 方差 分 析 法 (Henderson 方法 三 ) 有 密切 的 联系 . 


考虑 混合 效应 模型 
y= XB+Ué + Ut2+e, (9.8.1) 


这 里 ， 我 们 假设 名 ~ NN(0,031,), 6&2 ~ N(0,0314), e ~ N(0,021), 且 它们 彼此 独 
立 ， 其中， s, 9 分 别 为 已 知 阵 U4 和 Us 的 列 数 . 于 是 


Cov(y) = o2UU! + oBU2Us + o21,. 
在 89.4, 基于 拟 合 常数 的 思想 ， 我 们 给 出 了 此 模型 方差 分 量 o3,o2 和 o? 的 估 
计 ， 下 面 我 们 应 用 同样 的 技巧 来 构造 随机 效应 6z 是 否 存在 的 检验 问题 ， 即 


Ho: o2=0+t— Hi: o2#0 


的 检验 统计 量 . 
将 模型 (9.8.1) 中 随机 效应 &1 和 &2 的 暂 视 为 固定 效应 ， 模 型 拟 合 之 后 的 残 差 
平方 和 为 
SSe = yy — RSS(B, &1, €2) 
= y(In — Pxwv)y. (9.8.2) 
车 o = 0, 则 模型 (9.8.1) 变 为 y= XB+ U1&1 +e ,同样 暂 视 其 中 的 随机 效应 &1 的 
为 固定 效应 时 ， 模 型 拟 合 之 后 的 残 差 平方 和 变 为 
SSeo = yy — RSS(B, &1,) 
= y(In ~ Pix:v))y. (9.8.3) 


直观 上 ， 当 = 0 时 ， 模 型 拟 合 之 后 的 残 差 平方 和 SSeo 与 SS。 应 很 接近 ， 即 
5Sco - SS。 相对 于 SS。 应 很 小 ， 若 不 然 ， 我 们 就 认为 随机 效应 6 作用 显著 ， 即 接 
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受 虽 了 0. 令 
pF (SSeo — SSe)/to 
TS/ 


(9.8.4) 
这 里 =n 一 rk(X :UU :Ua)tz = rk(X :Ui :Ua)— rk(X :0). 

下 面 我 们 将 证 明 在 原 假设 Ho 下 ， FF ~ Fs,4. 

定理 9.8.1 ”对 于 模型 (9.8.1)， 

(1) SSo/o2 ~ 他， 

(2) 若 史 = 0, 则 (SSeo 一 SS。)/o? ~ X 人 ,并 且 与 SSe。 相互 独立 ， 

(3) 当 假设 o3 = 0 为 真 时 ， 则 FP ~ Fi,,4. 

证 明 ”注意 到 


SSe = ~ Px:vi:v)y = e'(In — Pexiviivs))e, (9.8.5) 


利用 定理 3.4.3, 立 得 SS。/o2 ~ x. (1) 得 证 . 
车 有 3 = 0, 则 模型 (9.8.1) 变 为 y= XB + U61+e, 因而 


(SSe ~ SSe) = y (Pixiwn:vs) — Px:v))y = e(Pix:wivs) — Pixvy))e. (9.8.6) 


同样 依 定理 3.4.3, 可 知 (SSeo - SSe)/o? ~ X%. 又 由 于 ((Pixiwiv5) -Pixiw)))(1, 一 
Rix:uuua)) = 0, 由 推论 3.4.4, 我 们 便 可 推 得 (SSeo - SS。) 与 SS。 相互 独立 ， (3) 是 
前 面 两 条 的 直接 结果 ， 定 理 证 毕 . 

Wald 检验 就 是 基于 这 个 简单 的 事实 得 到 的 检验 . 

例 9.8.1 ”两 级 套 分 类 随机 模型 


Yijk = H+ ait Pi(i) + eijk, 
Nh 


这 里 ai,8; (i) 皆 随 机 效应 , 假设 as ~ N(0,02), 6 6) ~ N(0,03), ejjk ~ N(0,02), 且 
都 相互 独立 . 
将 该 模型 写成 矩阵 形式 为 


2=XA+UDia+U256+e， 
这 里 铸 =1。@1681, = J481s81, Ua = Is@J®@1.. 由 上 面 的 假设 , 我 们 有 


Cov(y) = o2U1U! + oBU2Us + o2 Toge . 
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现在 我 们 欲 考虑 随机 效应 6j (i) 是 否 存在 ， 即 检验 假设 c3 = 0. 我 们 不 难 计算 

得 

SSe = y (Tase — Pix:vvs))y 

=y(l® hl(L -Jj)y= 六 > (iik — 7.)”, 
i 2 k 

SSe = y (Px:vivs) — Pex:v))Y 

yl @ (hh)o J)y=eD Dg 一 区) 
i 学 


1 


这 里 jm = 1m1%/m. 易 验 证 SSe/a2 ~ xs 当 o8 = 0 成 立时 ， SSp/o? ~ 
X20_b，, 且 与 SS。 独立 ， 由 定理 9.8.1, 此 检验 的 检验 统计 量 为 
ee —¥.)/a(b—1) 


在 假设 o8 = 0 下， 已 ~ Fa(6_1),ab(e_1): 

注 1 对 于 模型 (9.8.1), 若 检验 o? = 0 是 否 成 立 ， 我 们 只 需 将 mt 与 Us &2 
的 地 位 对 换 即 可 得 到 其 精确 检验 . 

注 2 在 定理 9.8.1 的 证 明 过 程 中 ,我 们 可 以 看 到 若 & 的 分 布 为 &1 ~ n(0, R),R > 
0, 定理 仍然 成 立 ， 这 便 是 Seely 和 EL-Bassiounile9 所 考虑 的 情形 . 

注 3 定理 9.8.1 仅 考 虑 了 t2 >0 即 M(X :Ui :U2) 关 AM(X :0) 的 情形 ， 
当 M( 玉 机 :09) = M(X : 太 ) 由 于 (9.8.4) 所 定义 下 的 分 子 变 为 0/0 型 ， 因 而 
Wald 检验 不 可 用 .例如 ， 在 例 9.8.1 中 对 o2 = 0 进行 检验 便 属于 这 种 情形 ， 因 为 
AM(X :号 02) = M(X :U2) = M(I。@ To@1。). 针对 这 种 情况 ， 6Fversten 提出 
了 另 一 种 方法 。 5Fversten 得 分 检验 法 ， 感 兴趣 的 读者 可 参见 文献 [58]. 

关于 方差 分 量 的 检验 问题 ， 近 年 有 不 少 新 的 研究 结果 ， 文 献 [72] 是 这 方面 工 
作 的 一 个 总 结 . 


9.1 对 两 向 分 类 随机 模型 
yi=p+tathtes, i=l,a j=l,6 


这 里 os 和 启 皆 为 随机 效应 ， as ~ N(0,o2), B; ~ N(0,03),eij ~ N(0,02), oi,B;, eiy 相互 独 
立 . 证 明 
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(1) yy 有 分 解 式 


s 
yy = F/OD+bD -y+ad -yy 


pe 
+》 Ds -5 m+) 
了 


全 yAytyAytyAy+y Ay; 


(2) 记 Qo =y A0y, Qi =Y Aiy/(a — 1), Q2 =¥ Azy/(b— 1), 
Qs =y Asy/(a ~ 1)(b 一 1), 证 明 
E(Q1) S a? = bo? +0?, 
E(Q2) So =a03+o2, 


B(Q3) Sa = 2; 


(3) 证 明 
(a~ DQ1/a? ~ x 
(6— DGzx/o ~ x 
(a— D6-— Des/ad ~ Xt yy 
且 环 .,Q1, 82 和 Qs 相互 独立 ， (提示 可 由 拟 合 常数 法 得 到 相应 的 二 次 型 ， 类 似 于 (9.4.8).) 
(4) 证 明 ， 方 差分 量 o2,03,02 的 方差 分 析 估计 为 ， 


52=(Q1-Qs)/b, 3B3=(Q2 -Qs)/a 32=Qs, 


并 证 明 它们 也 为 限制 极 大 似 然 方程 组 (9.6.6) 的 解 . 

9.2 根据 上 例 的 结果 ， 试 导出 假设 Ho: o3 = 0 + 一 1: 03 关 0 的 检验 统计 量 ， 并 证 明 此 
检验 与 Wald 检验 相同 . 

9.3 在 例 9.4.1 中 ， 假 设 y 的 分 布 为 正 态 ， 证 明 均 值 上 的 置信 区 间 为 


{7. -tv VE- Doe, .+to-vVG- D7}. 


9.4 在 正 态 假 设 下 ， 

(1) 计算 例 9.4.2 中 方差 分 最 估计 33 和 32 取 负 值 的 概率 ; 

(2) 计算 例 9.4.3 中 各 方差 分 量 的 估计 方差, 即 计算 Var(32)， Var(33), Var(62) 和 Var(32) 
(提示 利用 定理 3.4.1: 若 z ~ N(p,V), 则 Cov(z'Pz) = 2tr(PVPV) + 4py'PVPp.) 

9.5 证 明 在 模型 (9.6.1) 中 ， 对 任意 两 个 n x (n ~ r) 的 列 满 秩 矩阵 B1,Bz, 若 有 BIX = 
0，i 二 1,2, 则 Biy 与 Bsy 的 对 数 似 然 函数 最 多 差 一 个 常数 ， 即 


Io? |Biy) ~ lo? |B2y) 
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为 某 个 常数 . 这 从 另 一 个 角度 证 明了 限制 极 大 似 然 估计 与 B 选择 无 关 ， (提示: 证 明 B12(o?)Bi = 
KB52(o2)B2，Bi(B1E(a2)Bi)-: Bi = Baz(B?Z(o2?)Bz) +B2, k 为 常数 .) 
9.6 ”对 于 分 块 混合 效应 模型 


y= XB +Xapz+UE+e €~N(0,0?), ee~N(0c3)， 


这 里 X 为 mn xp 列 满 秩 阵 ， AM(Xa) C M(D), M(X2) nM(U) = {0}. 我 们 常常 仅 对 模型 中 
的 Ba 估计 感 兴趣 . 

(1) 试 写 出 部 分 参数 记 的 BLU 估计 成 和 LS 估计 房 . 

(2) 用 @。 = 了 一 U(U'U)-U' 左 乘 该 模型 ， 得 简约 模型 

Quy= QuXaBat+e, ce~N(0,02Q8). 
从 而 得 到 B2 另 一 简单 估计 
B= (XIQuX2) XIQuY, 

试 证 明 房 =B > M(QaX2) c M(Q1X2). 
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